CurriculumLearning


Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #In-ContextLearning #KeyPoint Notes #ContinualLearning #AgentSkills Issue Date: 2026-04-05 GPT Summary- エージェントのスキルをモデルのパラメータに内部化し、ゼロショットの自律的挙動を実現するために「SKILL0」というインコンテキスト強化学習フレームワークを提案。訓練ではスキル文脈を段階的に撤回し、オフラインでグループ化したスキルを用いて効率的なツール呼び出しを実現。実験結果では、SKILL0が標準のRLベースラインに対して顕著な改善を示し、文脈量も効率的に管理されることを確認。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning, Peng Xia+, arXiv'26, 2026.02

流し読みなので誤りがあるかもしれないが、

- [Paper Note] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning, Peng Xia+, arXiv'26, 2026.02

によって構築されたSKILLBANKによるスキルを、ポリシーの内部パラメータに学習させることができるか?を調査した研究で、内部パラメータに学習することで、検索とskillの読み込みによるcontextをモデルのパラメータに内在化させることでcontextを削減できる。外部スキルに完全に依存していたSkillRLとの対比として、内部パラメータにスキルを内在させるコンセプトからSKILL0と命名されていると思われる。

提案手法の概要としては下記Figure.2であるが、個人的には式(2), (3), (4), (5), (6)をみた方が、直感的に分かりやすいように感じた。最適化手法としてはGRPOだが、圧縮率を考慮した報酬設計と、カリキュラムの段階的な構築が肝であり、

- 圧縮率c_t \in (0, 1] の圧縮率の元、これまでのcontext h_t, retrieveされたスキルSをVision Encoderでエンコードし潜在表現V_tを得て[^1]; 式(2)
- V_tに基づいて次のaction a_tがポリシーによって生成される; 式(3)
- GRPO 式(5) が通常のRLVRに加えて、式(4)で表される圧縮率に基づいた報酬によって定義され実行される。要は、より高い圧縮率でcontext、およびretrieved skillを圧縮してタスクが成功したら報酬がより高くなる

という構造になっている。学習させる際は、カリキュラム学習を実施する(3.3節)。どのようにカリキュラム学習を成立させるかというと、学習をいくつかのstageに分けて、ポリシーに与えるSkillのContextを線形にdecayさせていく。これにより、徐々に与えられるContext量が減っていき、難易度が高くなるようなカリキュラムとなる。

3.3節、式4あたりが本提案手法のIn-Context Reinforcement Learning (ICRL)と命名される気持ちな気がしており、モデルはもともとIn-Context Leainingの元、スキルを実施できるが、それを与えるコンテキストを徐々に減らしてパラメータの内部に学習させていく、これをRLによって実現する(=ICRL)という気持ちなのかなと思われる。

image

[^1]: pixel-basedな潜在表現でレンダリングされたテキストに関する情報を扱えることが先行研究で示されており、画像としてエンコードした方がcontextを節約可能なのでこのような方法が採用されている。

ベースラインとなるSkillRLと比較して、個別のタスクレベルで見ると優劣は分かれるものの、ALFWorld [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 , 様々なQAベンチマーク(Search-QAと呼称) [Paper Note] Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning, Bowen Jin+, COLM'25, 2025.03 での全体としてのパフォーマンスは向上し、コンテキストが節約されることでコストを大幅に削減できているような結果となっている。
image

3.3節の(a), (b)の部分は読めていないがこちらも時間があるときに読みたい。Skill Budgetの調整に絡んでいそうではある。




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #SoftwareEngineering #PostTraining #ToolUse Issue Date: 2026-02-28 GPT Summary- ツール・インターフェースの質がLLMベースのエージェントの性能に影響を与えることに着目し、Trace-Free+というカリキュラム学習フレームワークを提案。これにより、トレースのない環境で再利用可能なインターフェース使用パターンを習得を促進。構造化ワークフローに基づくデータセットを構築し、実験では未知のツールに対する改善とクロスドメイン一般化が確認された。最終的に、ツール・インターフェースの最適化がエージェントのファインチューニングに有効であることを示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #MajorityVoting #Test Time Training (TTT) Issue Date: 2026-02-03 GPT Summary- TTCSフレームワークは、LLMの推論能力を向上させるための共同進化型テスト時トレーニングを提供。質問合成器と推論ソルバーを初期化し、合成器が難易度の高い質問を生成し、ソルバーは自己一貫性報酬で学習を更新。これにより、質問のバリアントが安定したテスト時トレーニングを実現。実験で数学的ベンチマークにおける推論能力の向上と一般ドメインタスクへの移行が確認された。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] TTRL: Test-Time Reinforcement Learning, Yuxin Zuo+, NeurIPS'25, 2025.04




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #PostTraining #Author Thread-Post Issue Date: 2026-01-27 GPT Summary- LLMは解決困難な問題のために自動カリキュラムを生成可能か?SOARという自己改善フレームワークを通じ、教師が学生のために問題を提案し、進捗に基づいて報酬を提供。研究では、バイレベルmeta-RLが学習を促進し、計測された報酬が内在的報酬を上回ることを示し、構造的品質が解答の正確性よりも学習において重要であることを明らかにした。これにより、困難な問題解決において事前の能力が不要であることが示唆された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

pj page: https://ssundaram21.github.io/soar/




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #Evaluation #RLVR #Verification Issue Date: 2025-11-12 GPT Summary- 適応可能な検証可能な環境を用いた強化学習(RLVE)を提案し、動的に問題の難易度を調整することで、言語モデルの強化学習をスケールアップする。RLVE-Gymという400の検証可能な環境からなるスイートを作成し、環境の拡大が推論能力を向上させることを示した。RLVEは、共同トレーニングにより、強力な推論LMで3.37%の性能向上を達成し、従来のRLトレーニングよりも効率的であることを示した。コードは公開されている。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

関連:
- [Paper Note] REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards, Zafir Stojanovski+, NeurIPS'25 Spotlight, 2025.05




Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #Hallucination #SelfImprovement #Diversity Issue Date: 2025-10-29 GPT Summary- SPICE(Self-Play In Corpus Environments)は、自己改善システムのための強化学習フレームワークで、単一モデルが「挑戦者」と「推論者」の2役を担う。挑戦者は文書を抽出して多様な推論タスクを生成し、推論者はそれを解決する。これにより、自動カリキュラムが形成され、持続的な改善が促進される。SPICEは、既存の手法に比べて数学的および一般的な推論のベンチマークで一貫した向上を示し、挑戦的な目標の生成が自己改善に重要であることを明らかにした。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #ReinforcementLearning #On-Policy #Batch #One-Line Notes Issue Date: 2025-10-04 GPT Summary- Prompt Curriculum Learning (PCL)を提案し、中程度の難易度のプロンプトを選択してLLMをポストトレーニングする軽量な強化学習アルゴリズムを紹介。最適なバッチサイズとプロンプト選択の重要性を実験で確認し、PCLは情報豊富なプロンプトに焦点を当てることで高いパフォーマンスを達成。ロールアウトを回避し、MATHおよびDeepScaleRでそれぞれ$12.1\times$および$16.9\times$の速度向上を実現。結果は、推論におけるRLの効率とパフォーマンスのトレードオフを改善する新たな方法論を示す。 Comment

元ポスト:

Loading…

(ざっくり読みなので誤りを多分に含むかもしれないがメモ)勾配のノイズの低減と生成の速度のトレードオフを最適にバランスをとるバッチサイズがあることを示し、RLの学習効率が中間程度(簡単すぎず、難しすぎない)の難易度が良いことを示したのち、Valueモデル(ロールアウトに基づいて更新される模様?)を用いてpromptを選択し[^1]中間程度のpromptを用いてロールアウトをし学習するようなオンポリシーのRLを提案する、みたいな話な模様。

[^1]:既存手法のロールアウトによって求める方法(計算コストが高すぎる)や、事前に決めておいた辞書ベースの手法(現在のポリシーからみた時の難易度が反映されておらず効率が悪い)の双方に比べて、適度にオンポリシーさを残したpromptの選び方となっている




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #Reasoning #OpenWeight #VideoGeneration/Understandings #VisionLanguageModel #One-Line Notes Issue Date: 2025-08-28 GPT Summary- Ovis2.5は、ネイティブ解像度の視覚認識とマルチモーダル推論を強化するために設計されたモデルで、画像を可変解像度で処理し、複雑な視覚コンテンツの詳細を保持します。推論時には反省を行う「思考モード」を提供し、精度向上を図ります。5段階のカリキュラムで訓練され、マルチモーダルデータの効率的な処理を実現。Ovis2.5-9BはOpenCompassで平均78.3を記録し、Ovis2-8Bに対して大幅な改善を示しました。Ovis2.5-2Bも73.9を達成し、リソース制約のあるデバイスに最適です。STEMベンチマークや複雑なチャート分析においても優れた性能を発揮しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/AIDC-AI/Ovis2.5-9B

Apache2.0ライセンス

GLM-4.1V-9B-Thinkingと同等以上の性能な模様。
image

- [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25, 2025.07




Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiModal #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM
image

アーキテクチャはこちら。が、pretraining(データのフィルタリング, マルチモーダル→long context継続事前学習)->SFT(cold startへの対処, reasoning能力の獲得)->RL(RLVRとRLHFの併用によるパフォーマンス向上とAlignment, RewardHackingへの対処,curriculum sampling)など、全体の学習パイプラインの細かいテクニックの積み重ねで高い性能が獲得されていると考えられる。
image




Paper/Blog Link My Issue
#Survey #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #InstructionTuning #PPO (ProximalPolicyOptimization) #Reasoning #LongSequence #RewardHacking #GRPO #Contamination-free #VerifiableRewards #One-Line Notes Issue Date: 2025-05-06 GPT Summary- RLMの進展は新しい言語モデルの進化を示し、DeepSeek-R1のリリースが社会的影響を生んでいる。DeepSeekの実装は完全にオープンではないが、多くの再現研究が登場し、同等の性能を達成。特にSFTとRLVRに重点を置き、データ構築や手法設計に関する知見を提供。実装の詳細と実験結果をまとめ、RLMの性能向上技術や開発課題についても議論。研究者が最新の進展を把握し、新しいアイデアを促進することを目指す。 Comment

元ポスト:

Loading…


サーベイのtakeawayが箇条書きされている。