Diversity
[Paper Note] Reasoning Models Generate Societies of Thought, Junsol Kim+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #read-later #Probing #Selected Papers/Blogs #SparseAutoEncoder Issue Date: 2026-01-19 GPT Summary- 大規模言語モデルは、複雑な認知タスクにおいて優れた性能を発揮するが、そのメカニズムは不明瞭である。本研究では、強化された推論は計算の拡張だけでなく、異なる人格特性や専門知識を持つ内部認知視点の間のマルチエージェント相互作用によって生じることを示す。これにより、推論モデルはより広範な対立を引き起こし、視点の多様性が向上することを発見した。制御された強化学習実験により、会話行動の増加が推論精度を向上させることが明らかになり、思考の社会的組織が問題解決を効果的に行う可能性を示唆する。 Comment
元ポスト:
解説:
[Paper Note] Harnessing Diversity for Important Data Selection in Pretraining Large Language Models, Chi Zhang+, ICLR'25 Spotlight, 2024.09
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #ICLR #read-later #Selected Papers/Blogs #DataMixture #Generalization #DownstreamTasks #Adaptive #Multi-Armed Bandit Issue Date: 2026-01-21 GPT Summary- データ選択は大規模言語モデルの事前トレーニングにおいて重要で、影響スコアでデータインスタンスの重要性を測定します。しかし、トレーニングデータの多様性不足や影響計算の時間が課題です。本研究では、品質と多様性を考慮したデータ選択手法\texttt{Quad}を提案します。アテンションレイヤーの$iHVP$計算を適応させ、データの品質評価を向上。データをクラスタリングし、選択プロセスでサンプルの影響を評価することで、全インスタンスの処理を回避します。マルチアームバンディット法を用い、品質と多様性のバランスを取ります。 Comment
openreview: https://openreview.net/forum?id=bMC1t7eLRc
[Paper Note] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning, Zhenwen Liang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-12-19 GPT Summary- G2RLは、強化学習においてモデル自身の更新幾何学に基づく勾配誘導フレームワークを提案。これにより、探索が外部ヒューリスティックに依存せず、ポリシーの再形成を測定。G2RLは、数学および一般的な推論ベンチマークで従来手法に対して一貫した性能向上を示し、探索の直交性と意味的な一貫性を維持することが明らかになった。 Comment
元ポスト:
entropyによる制約を課すRL手法ではモデルのsemanticな軸でのdiversityを測ることで探索の多様性を高めるが勾配レベルで見た時には実は冗長で無意味な方向になる場合があるため、勾配を直接見て有効な方向に探索されるようにします、実装は簡単で、計算量もあまり必要ないです、といった話に見える。
[Paper Note] Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity, Jiayi Zhang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Prompting #Selected Papers/Blogs Issue Date: 2025-12-13 GPT Summary- ポストトレーニングアライメントによるモード崩壊の原因を、好みデータにおける典型性バイアスに特定。これを基に「Verbalized Sampling(VS)」というプロンプティング戦略を提案し、モデルに応答の確率分布を言語化させる。実験により、VSが創造的執筆や対話シミュレーションなどで多様性を1.6〜2.1倍向上させることを示し、特に能力の高いモデルがより恩恵を受ける傾向が確認された。研究はモード崩壊に対する新たな視点を提供し、生成的多様性を解放する実用的な解決策を提示。 Comment
元ポスト:
preference dataに内在するtypicality bias(=人間が特定の応答を好む傾向)が、post trainingのalignmentフェーズにおいて増長されてモデルがモード崩壊を起こす(=特定の人間が典型的に好む応答のみを答えるようにalignされることで、出力の多様性が損なわれる)ことを明らかにし、「複数の出力と出力ごとの確率を出力させる」ようなpromptingによって、モデルが学習している確率分布そのものをverbalizeさせることで出力の多様性を引き出す、という話に見える。
pj page:
https://www.verbalized-sampling.com
コピペ可能なmagic promptが記載されている。test-time scalingと相性が良さそうである。
[Paper Note] Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond), Liwei Jiang+, NeurIPS'25 Best Paper Award, 2025.10
Paper/Blog Link My Issue
#Analysis #Pocket #NLP #Dataset #LanguageModel #Evaluation #Mindset #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-12-03 GPT Summary- Infinity-Chatは、26,000件の多様なオープンエンドユーザークエリからなるデータセットで、言語モデル(LM)の出力の多様性を評価するための新たなリソースを提供する。包括的な分類法を提案し、LMにおけるモード崩壊や人工的ハイヴマインド効果を明らかにした。調査結果は、LMの生成が人間の好みに適切に調整されていないことを示し、AI安全リスクの軽減に向けた今後の研究の重要な洞察を提供する。 Comment
openreview: https://openreview.net/forum?id=saDOrrnNTz
元ポスト:
これはまさに今日Geminiと壁打ちしている時に感じたなあ。全人類が同じLLMを使って壁打ちしたらどうなるんだろうと。同じような思考や思想を持つのではないか、あるいは偏っていないと思い込んでいるけど実は暗黙的に生じている応答のバイアスとか、そういう懸念。(読みたい)
[Paper Note] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity, Alexis Audran-Reiss+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #LanguageModel #AIAgents #Reasoning #ScientificDiscovery #One-Line Notes Issue Date: 2025-11-21 GPT Summary- AI研究エージェントのパフォーマンスにおけるアイデアの多様性の役割を検討。MLE-benchでの分析により、パフォーマンスの高いエージェントはアイデアの多様性が増加する傾向があることが明らかに。制御実験でアイデアの多様性が高いほどパフォーマンスが向上することを示し、追加の評価指標でも発見が有効であることを確認。 Comment
元ポスト:
ideation時点における多様性を向上させる話らしい
[Paper Note] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization, Zeng Zhiyuan+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #SelfImprovement #Catastrophic Forgetting #RLVR #Generalization #KeyPoint Notes Issue Date: 2025-11-07 GPT Summary- RLoopは、強化学習における過剰適合の問題を解決するための自己改善フレームワークであり、ポリシーの多様性を保ちながら一般化能力を向上させる。RLを用いて解空間を探索し、成功した軌跡から専門家データセットを作成し、拒否サンプリング微調整を行うことで、次の反復の出発点を洗練する。実験により、RLoopは忘却を軽減し、平均精度を9%、pass@32を15%以上向上させることが示された。 Comment
元ポスト:
ポリシーを初期化し、RLを実行しtrajeatory tを取得。tをrejection samplingし成功したtrajectoryでエキスパートデータセットを作成。作成したエキスパートデータセットでポリシーをSFT(=Rejection SamplingしたデータでSFTすることをRFTと呼ぶ)する(これが次iterationの初期化となる)といったことを繰り返す。
RLはAdvantageによって学習されるため、trajectoryの相対的な品質に基づいて学習をする。このため、バッチ内のすべてのtrajectoryが正解した場合などはadvantageが限りなくゼロに近づき学習のシグナルを得られない。
一方RFTは絶対的なRewardを用いており(RLVRの場合は成功したら1,そうでなければ0)、これがバッチ全体のパフォーマンスに依存しない安定した分散の小さい学習のシグナルを与える。
このように両者は補完的な関係にある。ただしRFTは成功したtrajectory全てに均等な重みを与えるため、既にポリシーが解くことができる問題にフォーカスしすぎることによって効率性が悪化する問題があるため、提案手法では成功率が低いhardなサンプルのみにエキスパートデータをフィルタリングする(=active learning)ことで、モデルが自身に不足した能力を獲得することに効率的に注力することになる。
また、RFTを使うことは単なるヒューリスティックではなく、理論的なgroundingが存在する。すなわち、我々はまだ未知の"expert"な分布 p^*にポリシーが従うように学習をしたいがこれはMLEの観点で言うと式3に示されているような形式になる。p^*から直接データをサンプリングをすることができないが、RLのポリシーから近似的にサンプリングをすることができる。そこでMLEの式をimportance samplingの観点から再度定式化をすると式4のようになり、後はimportance weight wを求められれば良いことになる。これはp^*に近いtrajectoryはRewardが高く、そうでない場合は低い、つまりw \propto Reward な関係であるため近似的に求めることができ、これらを式4のMLEの式に代入するとRFTと同じ式が導出される。
みたいな話のようである。
[Paper Note] SPICE: Self-Play In Corpus Environments Improves Reasoning, Bo Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #ReinforcementLearning #Hallucination #SelfImprovement #CurriculumLearning Issue Date: 2025-10-29 GPT Summary- SPICE(Self-Play In Corpus Environments)は、自己改善システムのための強化学習フレームワークで、単一モデルが「挑戦者」と「推論者」の2役を担う。挑戦者は文書を抽出して多様な推論タスクを生成し、推論者はそれを解決する。これにより、自動カリキュラムが形成され、持続的な改善が促進される。SPICEは、既存の手法に比べて数学的および一般的な推論のベンチマークで一貫した向上を示し、挑戦的な目標の生成が自己改善に重要であることを明らかにした。 Comment
元ポスト:
[Paper Note] Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning, Jiashun Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #Entropy Issue Date: 2025-10-24 GPT Summary- 非対称近似ポリシー最適化(AsyPPO)を提案し、批評者の役割を復元しつつ大規模言語モデルの強化学習を効率化。軽量なミニ批評者を用いて多様性を促進し、価値推定のバイアスを減少。5,000サンプルでトレーニング後、従来のPPOに対してパフォーマンスを向上させ、学習の安定性を一貫して改善。 Comment
元ポスト:
[Paper Note] Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms, Shrey Pandit+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Verification #DeepResearch #LongHorizon Issue Date: 2025-10-21 GPT Summary- Webベースの「ディープリサーチ」エージェントは、長期的なインタラクションを通じて複雑な質問応答タスクを解決することを目指すが、従来の方法は推論の複雑さを捉えきれない。そこで、タスクの複雑さを段階的に増加させる二段階のデータ合成パイプラインを導入し、ベースラインエージェントが質問に挑戦し、事実確認を行う。実験により、提案したデータセットが既存のものよりも効果的な訓練を可能にし、ツール使用アクションの多様性が2倍であることが示された。 Comment
元ポスト:
[Paper Note] Reasoning with Sampling: Your Base Model is Smarter Than You Think, Aayush Karan+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #Samplers Issue Date: 2025-10-18 GPT Summary- 本研究では、強化学習を用いずに、サンプリングによって大規模言語モデルの推論能力を引き出す方法を提案。マルコフ連鎖モンテカルロ技術に基づく反復サンプリングアルゴリズムを用い、MATH500、HumanEval、GPQAなどのタスクでRLに匹敵するかそれを上回る性能を示す。さらに、トレーニングや特別なデータセットを必要とせず、広範な適用可能性を持つことを示唆。 Comment
pj page: https://aakaran.github.io/reasoning_with_sampling/
元ポスト:
[Paper Note] Representation-Based Exploration for Language Models: From Test-Time to Post-Training, Jens Tuyls+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #Test-Time Scaling #PostTraining Issue Date: 2025-10-16 GPT Summary- 強化学習(RL)が言語モデルの行動発見に与える影響を調査。事前学習されたモデルの隠れ状態を基にした表現ベースのボーナスを用いることで、多様性とpass@k率が大幅に改善されることを発見。推論時における探索が効率を向上させ、ポストトレーニングにおいてもRLパイプラインとの統合により性能が向上。意図的な探索が新しい行動の発見に寄与する可能性を示唆。 Comment
元ポスト:
探索の多様性をあげてRLこ学習効率、test time scalingの効率を上げるという話
[Paper Note] Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation, Yujun Zhou+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #MajorityVoting Issue Date: 2025-09-19 GPT Summary- EVOL-RLは、ラベルなしの強化学習手法であり、モデルの探索能力と一般化能力を維持しつつ、安定性と変動を結びつける。多数決で選ばれた回答を安定したアンカーとして保持し、新規性を意識した報酬を追加することで、生成物の多様性を保ち、思考の連鎖を改善する。実験により、EVOL-RLはTTRLベースラインを上回り、特にラベルなしのAIME24での訓練において顕著な性能向上を示した。 Comment
元ポスト:
ポイント解説:
[Paper Note] Jointly Reinforcing Diversity and Quality in Language Model Generations, Tianjian Li+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #On-Policy Issue Date: 2025-09-03 GPT Summary- DARLINGというフレームワークを提案し、応答の質と意味的多様性を最適化。学習された分割関数を用いて多様性を測定し、質の報酬と組み合わせることで高品質かつ独自性のある出力を生成。実験により、非検証可能なタスクと検証可能なタスクの両方で優れた結果を示し、特に多様性の最適化が探索を促進し、質の向上に寄与することが確認された。 Comment
元ポスト:
関連:
[Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #Test-Time Scaling #RLVR Issue Date: 2025-08-26 GPT Summary- RLVRはLLMの複雑な推論タスクにおいて重要だが、従来のトレーニングは生成の多様性を減少させる問題がある。本研究では、ポリシーの生成の多様性を分析し、トレーニング問題を更新することでエントロピー崩壊を軽減する方法を提案。オンライン自己対戦と変分問題合成(SvS)戦略を用いることで、ポリシーのエントロピーを維持し、Pass@kを大幅に改善。AIME24およびAIME25ベンチマークでそれぞれ18.3%および22.8%の向上を達成し、12の推論ベンチマークでSvSの堅牢性を示した。 Comment
pj page: https://mastervito.github.io/SvS.github.io/
元ポスト:
ポイント解説:
[Paper Note] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models, Zhipeng Chen+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #read-later #RLVR Issue Date: 2025-08-19 GPT Summary- 検証可能な報酬を用いた強化学習(RLVR)では、Pass@1を報酬として使用することが多く、探索と活用のバランスに課題がある。これに対処するため、Pass@kを報酬としてポリシーモデルを訓練し、その探索能力の向上を観察。分析により、探索と活用は相互に強化し合うことが示され、利得関数の設計を含むPass@k Trainingの利点が明らかになった。さらに、RLVRのための利得設計を探求し、有望な結果を得た。 Comment
元ポスト:
Diverse Preference Optimization, Jack Lanchantin+, ICLR'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #ICLR #DPO #PostTraining Issue Date: 2025-02-01 GPT Summary- Diverse Preference Optimization(DivPO)を提案し、応答の多様性を向上させつつ生成物の品質を維持するオンライン最適化手法を紹介。DivPOは応答のプールから多様性を測定し、希少で高品質な例を選択することで、パーソナ属性の多様性を45.6%、ストーリーの多様性を74.6%向上させる。 Comment
元ポスト:
OpenReview: https://openreview.net/forum?id=pOq9vDIYev
DPOと同じ最適化方法を使うが、Preference Pairを選択する際に、多様性が増加するようなPreference Pairの選択をすることで、モデルのPost-training後の多様性を損なわないようにする手法を提案しているっぽい。
具体的には、Alg.1 に記載されている通り、多様性の尺度Dを定義して、モデルにN個のレスポンスを生成させRMによりスコアリングした後、RMのスコアが閾値以上のresponseを"chosen" response, 閾値未満のレスポンスを "reject" responseとみなし、chosen/reject response集合を構築する。chosen response集合の中からDに基づいて最も多様性のあるresponse y_c、reject response集合の中から最も多様性のないresponse y_r をそれぞれピックし、prompt xとともにpreference pair (x, y_c, y_r) を構築しPreference Pairに加える、といった操作を全ての学習データ(中のprompt)xに対して繰り返すことで実現する。
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions, John Chung+, ACL'23, 2023.07
Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2024-12-03 GPT Summary- 本研究では、LLMを用いたテキストデータ生成における多様性と精度を向上させるための人間とAIのパートナーシップを探求。ロジット抑制と温度サンプリングの2つのアプローチで多様性を高める一方、ラベル置換(LR)と範囲外フィルタリング(OOSF)による人間の介入を検討。LRはモデルの精度を14.4%向上させ、一部のモデルは少数ショット分類を上回る性能を示したが、OOSFは効果がなかった。今後の研究の必要性が示唆される。 Comment
生成テキストの質を維持しつつ、多様性を高める取り組み。多様性を高める取り組みとしては3種類の方法が試されており、
- Logit Suppression: 生成されたテキストの単語生成頻度をロギングし、頻出する単語にpenaltyをかける方法
- High Temperature: temperatureを[0.3, 0.7, 0.9, 1.3]にそれぞれ設定して単語をサンプリングする方法
- Seeding Example: 生成されたテキストを、seedとしてpromptに埋め込んで生成させる方法
で実験されている。
[Paper Note] Memory Based Trajectory-conditioned Policies for Learning from Sparse Rewards, Yijie Guo+, NeurIPS'20, 2019.07
Paper/Blog Link My Issue
#MachineLearning #Pocket #ReinforcementLearning #NeurIPS #Sparse Issue Date: 2025-10-22 GPT Summary- スパース報酬の強化学習において、過去の成功した軌道を利用する手法は短期的な行動を促す可能性がある。本研究では、多様な過去の軌道を追跡し拡張する軌道条件付きポリシーを提案し、エージェントが多様な状態に到達できるようにする。実験により、複雑なタスクにおいて従来の手法を大幅に上回り、特にアタリゲームで最先端のスコアを達成した。 Comment
元ポスト:
Hot topics in RL, Kimbo, X, 2025.12
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Post #train-inference-gap Issue Date: 2025-12-22 Comment
ロールアウト側のエンジンと、学習側のエンジンのトークンのlogprobのミスマッチによりon-policy RLを実施しているつもりが実はoff policyになってしまっているという話と
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
- [Paper Note] Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale
Thinking Model, Ling Team+, arXiv'25, 2025.10
- [Paper Note] Stabilizing MoE Reinforcement Learning by Aligning Training and
Inference Routers, Wenhan Ma+, arXiv'25, 2025.10
長いロールアウトを待っている間がアイドルタイムとなり学習が非常に遅くなる問題を、長すぎるロールアウトは待たないでモデルの重みをロールアウトの途中でもかけてしまい、新しいポリシーでロールアウトを継続すると学習は崩壊せずに高速化できるよ(=in flight updates)という話と
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence
Generation, Alexandre Piché+, arXiv'25, 2025.09
- PipelineRL, Piche+, ServiceNow, 2025.04
RLVRはもともとモデルが事前学習時に保持しているReasoningの能力を広げるわけではなく効率化するだけだよ、という主張と、
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
効率化するだけという主張と、Reasoning能力を拡大しているよ、という相反する主張がコミュニティでされているがそれらをphysics of language modelsに則り完全にコントロールされた条件下で実験し、どのような条件でどのような挙動になるかを明らかにしたよ、という話
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12
RLVRはPass@1を報酬としているとみなせるが、それをPass@kにすることで、モデルがRL中に探索する能力が向上し、downstreamタスクのPass@kが向上するよ
- [Paper Note] Pass@k Training for Adaptively Balancing Exploration and Exploitation of
Large Reasoning Models, Zhipeng Chen+, arXiv'25
といったこの辺の話がホットトピックとして挙げられている。
train-inference-mismatchについては、以下もおもしろかった:
- SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Comment
元ポスト:
関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and
In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10
(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)
とても勉強になる!AIに代替されない20%, 1%になるには果たして
所見: