SelfPlay


Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #Author Thread-Post Issue Date: 2026-04-24 GPT Summary- 自己対話アルゴリズムにおけるLLMの限界を克服するために、Self-Guided Self-Play(SGS)を提案。SGSでは、Solver、Conjecturer、Guideの三役をモデルが担い、崩壊を避けつつ問題解決を行う。SGSの評価では、従来のRLベースラインを上回り、効率的な自己対話によって7Bパラメータモデルが671Bパラメータモデルよりも多くの問題を解決可能であることを示した。 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…

seed dataを与えた上でのSelf-PlayによるRLの性能を向上させる方法を提案している。

Self-PlayでRLをする場合、
- Solver: タスクを解く。タスクを解けるように学習される。(タスクが解けたか否かのbinary Reward)
- Conjecture: タスクを生成する。SolverのパフォーマンスをRewardとして学習される。

という構造が一般的だが、既存手法を分析した結果、学習が進むにつれ、ConjectureがSolverがそもそも解けない問題を生成するなどし、Reward Hackingが生じてしまい性能が向上しないことを発見。(Figure 2)
image


そこで、新たにGuideを追加し、Conjectureがタスクを合成する際にR_solve*R_guideの積の形式にRewardを調整し
- R_solveは(1 - Solverのsuccess rate)によって定義されるが、難しすぎる問題(success rate=0)、簡単すぎる問題(現在のバッチのtop 30%の問題)に関しては0に落とす。
- R_guideは合成タスクが、seed dataでSolverがまだ解けていない問題に関してどれだけの品質を有しているかに関するスコアを提供し(=unsolvedな問題に対する関連度、シンプルな結論が記述されており冗長な前提がないか、に関するRubricに基づくスコア)そのスコアをR_guideとする。つまり、seed dataにおいてまだ解けていない問題がより重視される。

ことで対処した。

image

self-playに関する代表的な先行研究:
- [Paper Note] Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play, Sainbayar Sukhbaatar+, ICLR'18, 2017.03




Paper/Blog Link My Issue
#NLP #LanguageModel #CodeGeneration #Coding #Author Thread-Post Issue Date: 2025-12-24 GPT Summary- 自己対戦によるモデル訓練の効果を検討し、形式的検証を用いたコード生成の設定で「Propose, Solve, Verify(PSV)」フレームワークを導入。PSV-Verusを訓練し、3つのベンチマークで最大9.6倍の性能向上を達成。形式的検証と問題の難易度が成功する自己対戦の重要な要素であることを示した。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Toward Training Superintelligent Software Agents through Self-Play SWE-RL, Yuxiang Wei+, arXiv'25, 2025.12

著者ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SoftwareEngineering #PostTraining #read-later Issue Date: 2025-12-24 GPT Summary- Self-play SWE-RL(SSR)を提案し、最小限のデータ仮定でソフトウェアエージェントのトレーニングを行う。人間のラベル付けなしで、LLMエージェントが自己対戦でソフトウェアバグを注入・修正し、SWE-bench VerifiedおよびSWE-Bench Proで顕著な自己改善を達成。結果は、エージェントが実世界のリポジトリから自律的に学習し、最終的に超知能システムの実現に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Test-Time Scaling #RLVR #Diversity Issue Date: 2025-08-26 GPT Summary- RLVRは複雑な推論タスクにおいて重要な手法だが、従来の訓練は生成の多様性を低下させることがあった。本研究では、ポリシーの生成多様性を分析し、訓練問題の更新がエントロピー崩壊を軽減することを発見。オンライン自己対戦付き変分問題合成(SvS)戦略を提案し、ポリシーエントロピーを維持しつつ、Pass@k性能を大幅に向上させた。特にAIME24およびAIME25ベンチマークでそれぞれ18.3ポイントと22.8ポイントの改善を達成した。 Comment

pj page: https://mastervito.github.io/SvS.github.io/

元ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfImprovement #NeurIPS #read-later #RLVR #Selected Papers/Blogs #Label-free Issue Date: 2025-05-08 GPT Summary- RLVRは、結果に基づく報酬を用いて言語モデルの推論能力を向上させるが、訓練には人手による質問と回答の収集が必要。高品質な例の不足は長期的なスケーラビリティの懸念を引き起こす。これに対処する新しいRLVRパラダイム、Absolute Zeroが提案され、モデルトレーニングが外部データに依存せず、AZRによって自己進化を促進。AZRはオープンエンドな検証可能報酬を提供し、全くの外部データなしでもSOTA性能を達成。また、様々なモデルと互換性があることが示された。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=neZSGqhxDa&referrer=%5Bthe%20profile%20of%20Zilong%20Zheng%5D(%2Fprofile%3Fid%3D~Zilong_Zheng1)




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #SyntheticData #SelfImprovement #ICML #mid-training #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes #AdversarialTraining Issue Date: 2024-01-24 GPT Summary- 自己対戦ファインチューニング(SPIN)を提案し、人間の注釈なしで弱いLLMを強化。LLMが自らのインスタンスと対戦し、トレーニングデータを生成。自己生成と人間の応答を識別してポリシーを微調整。SPINは様々なベンチマークでLLMの性能を大幅に向上させ、GPT-4優先データを使ったモデルを上回る成果を示した。 Comment

pj page: https://uclaml.github.io/SPIN/
code: https://github.com/uclaml/SPIN

メインプレイヤーは人間とLLMのレスポンスを区別する、対戦相手はメインプレイヤーに対して人間が作成したレスポンスと自身が作成させたレスポンスを区別できないようにするようなゲームをし、両者を同じLLM、しかし異なるiterationのパラメータを採用することで自己対戦させることでSFTデータセットから最大限学習するような手法を提案。メインプレイヤーの目的関数は、人間とLLMのレスポンスの確率の差を最大化するように定式化され(式4.1)、対戦相手は人間が生成したレスポンスを最大化するような損失関数を元のパラメータから大きく乖離しないようにKL正則化付きで定義する(式4.3)。双方の損失を単一の損失関数に統合すると式4.7で表される提案手法のSPIN損失が得られ、これによって与えられたSFTデータに対してレスポンスを各iterationで合成し、合成したレスポンスに対してSPIN損失を適用することでモデルのパラメータをアップデートする。メインプレイヤーの重みは更新された重みを用いて、対戦プレイヤーの重みは一つ前の重みを用いる。




Paper/Blog Link My Issue
#NeuralNetwork #NLP #ReinforcementLearning #ICLR #read-later #Selected Papers/Blogs Issue Date: 2026-04-29 GPT Summary- エージェントが教師なしで学習するための単純なスキームを提案。アリスとボブの二つのエージェントが対戦し、アリスが課題を提示、ボブがそれを完了しようと試みる。可逆な環境とリセット可能な環境に焦点を当て、アリスが行動を提案し、ボブがそれを元に戻すか繰り返す。適切な報酬設計により、自動的に探索のカリキュラムを生成し、教師なし学習を実現。ボブをRLタスクに適用することで、教師付きエピソードの数を減少させ、高い報酬へ収束する可能性がある。 Comment

openreview: https://openreview.net/forum?id=SkT5Yg-RZ