Label-free
[Paper Note] Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline, Tony Lee+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining #Selected Papers/Blogs #reading #KeyPoint Notes #SelfVerification #SelfDistillation Issue Date: 2026-05-31 GPT Summary- LLMがラベルなしシード問題から自己改善できるかを探求。自己検証蒸留というアルゴリズムで、生成した候補解をプロンプトベースでフィルタリングし、自己精選データを構築。循環的一貫性、事実性、正確性の3段階で解を承認し、より高品質なデータが優れたモデルへと導く。Qwen3モデルでは、数学・科学・コーディングの各ドメインで顕著な性能向上を確認。特にQwen3-4Bでは、特定のベンチマークでの改善が見られ、従来手法に比べ優れた性能を達成。 Comment
元ポスト:
関連:
- [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25
- 事後学習済みのLLMを外部のverifier, ground-truthデータ無しで、UQ Verifierに基づいたself-judgementで構築した合成データでSFTすることで性能を押し上げる手法
- データ構築では、1つのラベル無しseed questionに対してn回の応答生成を行い、それらをUQ style verifierでフィルタリングしたデータによって構築する。
- UQ Verifierは、マルチステージのverifierで(今回はself judgment)、各ステージごとにv回のvotingを実施する。各ステージは以下:
- cycle consistency: モデルが生成した応答から質問を逆生成し、オリジナルの問題のコアとなる課題が共通しているかを検証する。
- factual error check: 事実情報にエラーがないかを検証する。
- total correctness: 思考過程と最終的な結論に誤りがないかを検証する。
- 学習データの構築に計算量を増やせば増やすほど性能が向上する (Figure 3)
- test-time verificationのコストを、データ構築時に前払いし、運用時は1度のinferenceでtest-time verification導入時と同等以上の性能を達成する(Table 3)
[Paper Note] Unsupervised Process Reward Models, Artyom Gadetsky+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #PRM #RewardModel Issue Date: 2026-05-24 GPT Summary- 無監督型プロセス報酬モデル(uPRM)は、推論の精度を高める新たな手法であり、従来のPRMが必要とする人間のステップごとの注釈を排除します。uPRMは、LLMの次トークン確率に基づき、誤りが起こる可能性のあるステップを評価します。この方法により、ProcessBenchデータセットでの誤り特定精度が最大15ポイント向上し、テスト時の性能では監督付きPRMと同等の結果を示しました。さらに、強化学習においても、uPRMはより優れた方策最適化を実現し、スケーラブルな報酬モデリングの道を開きます。 Comment
元ポスト:
Next Token Predictionによってターミナルのダイナミクスをモデルに内包させる研究と関連している:
- [Paper Note] ECHO: Terminal Agents Learn World Models for Free, Vaishnavi Shrivastava+, arXiv'26, 2026.05
[Paper Note] R-Zero: Self-Evolving Reasoning LLM from Zero Data, Chengsong Huang+, ICLR'26
Paper/Blog Link My Issue
#NLP #LanguageModel #SelfImprovement #ICLR #Author Thread-Post Issue Date: 2025-08-09 GPT Summary- R-Zeroは、自己進化型大規模言語モデル(LLMs)が自律的にトレーニングデータを生成するフレームワークで、チャレンジャーとソルバーの2つのモデルが共進化することで、既存のタスクやラベルに依存せずに自己改善を実現します。このアプローチにより、推論能力が大幅に向上し、特にQwen3-4B-Baseでは数学推論で+6.49、一般ドメイン推論で+7.54の改善が確認されました。 Comment
元ポスト:
問題を生成するChallengerと与えられた問題を解くSolverを用意し、片方をfreezezさせた状態で交互にポリシーの更新を繰り返す。
### Challenger
- (Challengerによる)問題生成→
- (freezed solverによる)self consistencyによるラベル付け→
- Solverの問題に対するempirical acc.(i.e., サンプリング回数mに対するmajorityが占める割合)でrewardを与えChallengerを更新
といった流れでポリシーが更新される。Rewardは他にも生成された問題間のBLEUを測り類似したものばかりの場合はペナルティを与える項や、フォーマットが正しく指定された通りになっているか、といったペナルティも導入する。
### Solver
- ChallengerのポリシーからN問生成し、それに対してSolverでself consistencyによって解答を生成
- empirical acc.を計算し、1/2との差分の絶対値を見て、簡単すぎる/難しすぎる問題をフィルタリング
- これはカリキュラム学習的な意味合いのみならず、低品質な問題のフィルタリングにも寄与する
- フィルタリング後の問題を利用して、verifiable binary rewardでポリシーを更新
### 評価結果
数学ドメインに提案手法を適用したところ、iterごとに全体の平均性能は向上。
提案手法で数学ドメインを学習し、generalドメインに汎化するか?を確認したところ、汎化することを確認(ただ、すぐにサチっているようにも見える)。、
関連:
- [Paper Note] Self-Questioning Language Models, Lili Chen+, arXiv'25
- [Paper Note] Absolute Zero: Reinforced Self-play Reasoning with Zero Data, Andrew Zhao+, arXiv'25, 2025.05
著者ポスト:
-
-
日本語解説:
openreview: https://openreview.net/forum?id=96apU6YzSO
[Paper Note] Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors, Alexis Ross+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #EducationalDataMining #Supervised-FineTuning (SFT) #SyntheticData #Reasoning Issue Date: 2025-10-16 GPT Summary- 新手法MISTAKEを提案し、不正確な推論パターンをモデル化。サイクル整合性を利用して高品質な推論エラーを合成し、教育タスクでの学生シミュレーションや誤解分類において高精度を達成。専門家の選択肢との整合性も向上。 Comment
元ポスト:
[Paper Note] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play, Qinsi Wang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #SelfImprovement #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-10-13 GPT Summary- Vision-Zeroは、視覚と言語のモデル(VLM)の自己改善を促進するドメイン非依存のフレームワークであり、任意の画像ペアから生成された競争的な視覚ゲームを通じてトレーニングを行う。主な特徴は、戦略的自己対戦による自律的なデータ生成、任意の画像からのゲーム生成による多様なドメインでの推論能力向上、そして反復自己対戦ポリシー最適化(Iterative-SPO)による持続的なパフォーマンス向上である。Vision-Zeroはラベルなしデータを用いて最先端のパフォーマンスを達成し、他の注釈ベースの手法を上回る。 Comment
pj page: https://github.com/wangqinsi1/Vision-Zero
元ポスト:
とても良さそう
ポイント解説:
[Paper Note] Self-Questioning Language Models, Lili Chen+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfImprovement #MajorityVoting Issue Date: 2025-08-09 GPT Summary- 自己質問型言語モデル(SQLM)を提案し、トピックを指定するプロンプトから自ら質問を生成し、解答する非対称の自己対戦フレームワークを構築。提案者と解答者は強化学習で訓練され、問題の難易度に応じて報酬を受け取る。三桁の掛け算や代数問題、プログラミング問題のベンチマークで、外部データなしで言語モデルの推論能力を向上させることができることを示す。 Comment
pj page: https://self-questioning.github.io
元ポスト:
たとえば下記のような、ラベル無しの外部データを利用する手法も用いてself improvingする手法と比較したときに、どの程度の性能差になるのだろうか?外部データを全く利用せず、外部データありの手法と同等までいけます、という話になると、より興味深いと感じた。
- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01
既存の外部データを活用しない関連研究:
- [Paper Note] Absolute Zero: Reinforced Self-play Reasoning with Zero Data, Andrew Zhao+, arXiv'25, 2025.05
[Paper Note] Absolute Zero: Reinforced Self-play Reasoning with Zero Data, Andrew Zhao+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfImprovement #NeurIPS #read-later #RLVR #Selected Papers/Blogs #SelfPlay Issue Date: 2025-05-08 GPT Summary- RLVRは、結果に基づく報酬を用いて言語モデルの推論能力を向上させるが、訓練には人手による質問と回答の収集が必要。高品質な例の不足は長期的なスケーラビリティの懸念を引き起こす。これに対処する新しいRLVRパラダイム、Absolute Zeroが提案され、モデルトレーニングが外部データに依存せず、AZRによって自己進化を促進。AZRはオープンエンドな検証可能報酬を提供し、全くの外部データなしでもSOTA性能を達成。また、様々なモデルと互換性があることが示された。 Comment
元ポスト:
