<h2 id=Test-Time Scaling> Test-Time Scaling</h2><div class="visible-content"> #EfficiencyImprovement #Pocket #NLP #LanguageModel #Pruning #Decoding #Parallel


Issue Date: 2025-10-12 [Paper Note] DeepPrune: Parallel Scaling without Inter-trace Redundancy, Shangqing Tu+, arXiv’25, 2025.10 GPT Summary- DeepPruneという新しいフレームワークを提案し、並列スケーリングの計算非効率を解決。80%以上の推論トレースが同一の回答を生成する問題に対処し、焦点損失とオーバーサンプリング技術を用いた判定モデルで同等性を予測。オンラインの貪欲クラスタリングで冗長な経路をプルーニングし、80%以上のトークン削減を達成しつつ、精度を維持。効率的な並列推論の新基準を確立。 Comment<p>pj page:

https://deepprune.github.io

</p><p>HF:

https://huggingface.co/collections/THU-KEG/deepprune-68e5c1ea71f789a6719b2c1c

</p><p>元ポスト:

Loading…

</p></span>

#Embeddings #InformationRetrieval #Pocket #Transformer #SyntheticData #Reasoning #COLM #read-later #Selected Papers/Blogs #Encoder


Issue Date: 2025-10-08 [Paper Note] ReasonIR: Training Retrievers for Reasoning Tasks, Rulin Shao+, COLM’25, 2025.04 GPT Summary- ReasonIR-8Bは、一般的な推論タスク向けに特別に訓練された初のリトリーバーであり、合成データ生成パイプラインを用いて挑戦的なクエリとハードネガティブを作成。これにより、BRIGHTベンチマークで新たな最先端成果を達成し、RAGタスクでも他のリトリーバーを上回る性能を示す。トレーニングレシピは一般的で、将来のLLMへの拡張が容易である。コード、データ、モデルはオープンソース化されている。 Comment<p>元ポスト:

Loading…

</p><p>Llama3.1-8Bをbidirectional encoderに変換してpost-trainingしている。</p><p>関連:
- [Paper Note] Generative Representational Instruction Tuning, Niklas Muennighoff+, ICLR’25, 2024.02 </p></span>

#Pocket #NLP #Search #LanguageModel #Reasoning #Decoding #TreeSearch


Issue Date: 2025-10-08 [Paper Note] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information, Jiaxi Li+, arXiv’25, 2025.10 GPT Summary- 相互情報量ツリー探索(MITS)を提案し、推論経路の評価と探索を効率化。PMIに基づくスコアリング関数を用い、計算コストを抑えつつ優れた推論性能を実現。エントロピーに基づく動的サンプリング戦略でリソースを最適配分し、重み付き投票方式で最終予測を行う。MITSは多様なベンチマークでベースラインを上回る結果を示した。 Comment<p>元ポスト:

Loading…

</p></span>

</div>

#Pocket #NLP #LanguageModel #DiffusionModel #read-later #MajorityVoting Issue Date: 2025-10-07 [Paper Note] Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts, Jihoon Lee+, arXiv'25, 2025.10 GPT Summary- dLLMsは異なる生成順序に基づく専門的な挙動を学習するが、固定された推論スケジュールは性能を低下させる。HEXという新手法を導入し、異なるブロックスケジュールでのアンサンブルを行うことで、精度を大幅に向上させる。GSM8KやMATH、ARC-C、TruthfulQAなどのベンチマークで顕著な改善を示し、テスト時スケーリングの新たなパラダイムを確立した。 Comment

元ポスト:

Loading…

これは気になる👀

著者ポスト:

Loading…


#Pocket #NLP #LanguageModel #ReinforcementLearning #LLMAgent #ComputerUse #VisionLanguageModel Issue Date: 2025-10-05 [Paper Note] GTA1: GUI Test-time Scaling Agent, Yan Yang+, arXiv'25, 2025.07 GPT Summary- GTA1というGUIエージェントは、ユーザーの指示を分解し、視覚要素と相互作用しながらタスクを自律的に完了します。計画の選択と視覚ターゲットとの正確な相互作用という2つの課題に対処するため、テスト時スケーリングを用いて最適なアクション提案を選び、強化学習を通じて基づけを改善します。実験により、GTA1は基づけとタスク実行の両方で最先端の性能を示しました。 Comment

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #read-later Issue Date: 2025-10-05 [Paper Note] Generalized Parallel Scaling with Interdependent Generations, Harry Dong+, arXiv'25, 2025.10 GPT Summary- Bridgeを提案し、並列LLM推論で相互依存する応答を生成。これにより、平均精度が最大50%向上し、一貫性が増す。訓練後は任意の生成幅にスケール可能で、独立生成よりも優れたパフォーマンスを発揮。 Comment

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #Ensemble #read-later #Best-of-N Issue Date: 2025-09-26 [Paper Note] Best-of-$\infty$ -- Asymptotic Performance of Test-Time Compute, Junpei Komiyama+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル(LLMs)におけるBest-of-$N$を多数決に基づいて研究し、$N \to \infty$の限界(Best-of-$\infty$)を分析。無限のテスト時間を必要とする問題に対処するため、回答の一致に基づく適応生成スキームを提案し、推論時間を効率的に配分。さらに、複数のLLMの重み付きアンサンブルを拡張し、最適な重み付けを混合整数線形計画として定式化。実験によりアプローチの有効性を実証。 Comment

pj page: https://jkomiyama.github.io/bestofinfty/

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-09-24 [Paper Note] Heimdall: test-time scaling on the generative verification, Wenlei Shi+, arXiv'25, 2025.04 GPT Summary- Heimdallは、長いChain-of-Thought推論における検証能力を向上させるためのLLMであり、数学問題の解決精度を62.5%から94.5%に引き上げ、さらに97.5%に達する。悲観的検証を導入することで、解決策の精度を54.2%から70.0%、強力なモデルを使用することで93.0%に向上させる。自動知識発見システムのプロトタイプも作成し、データの欠陥を特定する能力を示した。 #Analysis #Pocket #NLP #LanguageModel #SamplingParams #Best-of-N #MajorityVoting Issue Date: 2025-09-24 [Paper Note] Optimizing Temperature for Language Models with Multi-Sample Inference, Weihua Du+, ICML'25, 2025.02 GPT Summary- マルチサンプル集約戦略を用いて、LLMの最適な温度を自動的に特定する手法を提案。従来の方法に依存せず、モデルアーキテクチャやデータセットを考慮した温度の役割を分析。新たに提案するエントロピーに基づく指標は、固定温度のベースラインを上回る性能を示し、確率過程モデルを用いて温度とパフォーマンスの関係を解明。 Comment

openreview: https://openreview.net/forum?id=rmWpE3FrHW¬eId=h9GETXxWDB



#EfficiencyImprovement #Controllable #Pocket #NLP #Search #LanguageModel #Decoding Issue Date: 2025-08-30 [Paper Note] Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs, Ziyue Li+, arXiv'25 GPT Summary- 事前学習済みのLLMの層をモジュールとして操作し、各サンプルに最適なアーキテクチャを構築する手法を提案。モンテカルロ木探索を用いて、数学および常識推論のベンチマークで最適な層の連鎖(CoLa)を特定。CoLaは柔軟で動的なアーキテクチャを提供し、推論効率を改善する可能性を示唆。75%以上の正しい予測に対して短いCoLaを見つけ、60%以上の不正確な予測を正すことができることが明らかに。固定アーキテクチャの限界を克服する道を開く。 Comment

解説:

Loading…

事前学習済み言語モデルのforward pathにおける各layerをbuilding blocksとみなして、入力に応じてスキップ、あるいは再帰的な利用をMCTSによって選択することで、test time時のモデルの深さや、モデルの凡化性能をタスクに対して適用させるような手法を提案している模様。モデルのパラメータの更新は不要。k, r ∈ {1,2,3,4} の範囲で、"k個のlayerをskip"、あるいはk個のlayerのブロックをr回再帰する、とすることで探索範囲を限定的にしtest時の過剰な計算を抑止している。また、MCTSにおけるsimulationの回数は200回。length penaltyを大きくすることでcompactなforward pathになるように調整、10%の確率でまだ探索していない子ノードをランダムに選択することで探索を促すようにしている。オリジナルと比較して実行時間がどの程度増えてしまうのか?に興味があったが、モデルの深さという観点で推論効率は考察されているように見えたが、実行時間という観点ではざっと見た感じ記載がないように見えた。

<img width="948" height="301" alt="Image" src=" <a href="https://github.com/user-attachments/assets/0a03cdc2-141b-40a1-a11e-9560187ff7b6"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/0a03cdc2-141b-40a1-a11e-9560187ff7b6"</a> />

以下の広範なQA、幅広い難易度を持つ数学に関するデータで評価(Appendix Bに各データセットごとに500 sampleを利用と記載がある)をしたところ、大幅に性能が向上している模様。ただし、8B程度のサイズのモデルでしか実験はされていない。
- [Paper Note] Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge, Peter Clark+, arXiv'18
- [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24
<img width="986" height="682" alt="Image" src=" <a href="https://github.com/user-attachments/assets/c6d88c0a-4ae0-41b7-8526-17d041692f49"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/c6d88c0a-4ae0-41b7-8526-17d041692f49"</a> />

関連:
- [Paper Note] Looped Transformers are Better at Learning Learning Algorithms, Liu Yang+, ICLR'24
- [Paper Note] Looped Transformers for Length Generalization, Ying Fan+, ICLR'25
- [Paper Note] Universal Transformers, Mostafa Dehghani+, ICLR'19
- [Paper Note] Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation, Sangmin Bae+, arXiv'25



#Pocket #NLP #LanguageModel #ReinforcementLearning #RLVR #Diversity Issue Date: 2025-08-26 [Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25 GPT Summary- RLVRはLLMの複雑な推論タスクにおいて重要だが、従来のトレーニングは生成の多様性を減少させる問題がある。本研究では、ポリシーの生成の多様性を分析し、トレーニング問題を更新することでエントロピー崩壊を軽減する方法を提案。オンライン自己対戦と変分問題合成(SvS)戦略を用いることで、ポリシーのエントロピーを維持し、Pass@kを大幅に改善。AIME24およびAIME25ベンチマークでそれぞれ18.3%および22.8%の向上を達成し、12の推論ベンチマークでSvSの堅牢性を示した。 Comment

pj page: https://mastervito.github.io/SvS.github.io/

元ポスト:

Loading…

ポイント解説:

Loading…


#Pocket #NLP #LanguageModel #ReinforcementLearning #GRPO #read-later #Selected Papers/Blogs #Non-VerifiableRewards #RewardModel Issue Date: 2025-07-22 [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25 GPT Summary- 強化学習を用いてLLMsの推論能力を向上させるため、報酬モデリング(RM)のスケーラビリティを探求。ポイントワイズ生成報酬モデリング(GRM)を採用し、自己原則批評調整(SPCT)を提案してパフォーマンスを向上。並列サンプリングとメタRMを導入し、スケーリング性能を改善。実験により、SPCTがGRMの質とスケーラビリティを向上させ、既存の手法を上回る結果を示した。DeepSeek-GRMは一部のタスクで課題があるが、今後の取り組みで解決可能と考えられている。モデルはオープンソースとして提供予定。 Comment

- inputに対する柔軟性と、
- 同じresponseに対して多様なRewardを算出でき (= inference time scalingを活用できる)、
- Verifiableな分野に特化していないGeneralなRewardモデルである

Inference-Time Scaling for Generalist Reward Modeling (GRM) を提案。

<img width="834" height="544" alt="Image" src=" <a href="https://github.com/user-attachments/assets/18b13e49-745c-4c22-8d29-8b9bbb7fe80c"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/18b13e49-745c-4c22-8d29-8b9bbb7fe80c"</a> />

Figure3に提案手法の学習の流れが図解されておりわかりやすい。



#Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2025-07-01 [Paper Note] Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search, Yuichi Inoue+, NeurIPS'25 GPT Summary- AB-MCTSを提案し、外部フィードバックを活用して繰り返しサンプリングを改善。探索木のノードで新しい応答を「広げる」か「深める」かを動的に決定。実験により、AB-MCTSが従来の手法を上回り、LLMsの応答の多様性と解決策の洗練を強調。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…


#Pocket #NLP #LanguageModel #QuestionAnswering #KnowledgeGraph #Factuality #Reasoning #PostTraining Issue Date: 2025-05-20 Scaling Reasoning can Improve Factuality in Large Language Models, Mike Zhang+, arXiv'25 GPT Summary- 本研究では、オープンドメインの質問応答における大規模言語モデル(LLM)の推論能力を検討し、推論の痕跡を抽出してファインチューニングを行った。知識グラフからの情報を導入し、168回の実験を通じて170万の推論を分析した結果、小型モデルが元のモデルよりも事実の正確性を顕著に改善し、計算リソースを追加することでさらに2-8%の向上が確認された。実験成果は公開され、さらなる研究に寄与する。 Comment

元ポスト:

Loading…


#EfficiencyImprovement #Pocket #NLP #LanguageModel #ICLR #Decoding #Verification #SpeculativeDecoding Issue Date: 2025-05-13 Faster Cascades via Speculative Decoding, Harikrishna Narasimhan+, ICLR'25 GPT Summary- カスケードと推測デコーディングは、言語モデルの推論効率を向上させる手法であり、異なるメカニズムを持つ。カスケードは難しい入力に対して大きなモデルを遅延的に使用し、推測デコーディングは並行検証で大きなモデルを活用する。新たに提案する推測カスケーディング技術は、両者の利点を組み合わせ、最適な遅延ルールを特定する。実験結果は、提案手法がカスケードおよび推測デコーディングのベースラインよりも優れたコスト品質トレードオフを実現することを示した。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=vo9t20wsmd



#Survey #Pocket #NLP #LanguageModel Issue Date: 2025-04-02 What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models, Qiyuan Zhang+, arXiv'25 GPT Summary- テスト時スケーリング(TTS)が大規模言語モデル(LLMs)の問題解決能力を向上させることが示されているが、体系的な理解が不足している。これを解決するために、TTS研究の4つのコア次元に基づく統一的なフレームワークを提案し、手法や応用シナリオのレビューを行う。TTSの発展の軌跡を抽出し、実践的なガイドラインを提供するとともに、未解決の課題や将来の方向性についての洞察を示す。 Comment

元ポスト:

Loading…

とてつもない量だ…網羅性がありそう。
What to Scaleがよくあるself
consistency(Parallel Scaling), STaR(Sequential Scailng), Tree of Thought(Hybrid Scaling), DeepSeek-R1, o1/3(Internal Scaling)といった分類で、How to ScaleがTuningとInferenceに分かれている。TuningはLong CoTをSFTする話や強化学習系の話(GRPOなど)で、InferenceにもSelf consistencyやらやらVerificationやら色々ありそう。良さそう。
image



#Pocket #NLP #LanguageModel #LLM-as-a-Judge Issue Date: 2025-03-27 Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators, Seungone Kim+, arXiv'25 GPT Summary- LMの出力品質評価が難しくなっている中、計算を増やすことで評価能力が向上するかを検討。推論モデルを用いて応答全体と各ステップを評価し、推論トークンの生成が評価者のパフォーマンスを向上させることを確認。再ランク付けにより、評価時の計算増加がLMの問題解決能力を向上させることを示した。 Comment

元ポスト:

Loading…

LLM-as-a-JudgeもlongCoT+self-consistencyで性能が改善するらしい。
image



#Pocket #NLP #LanguageModel #ICML #Verification Issue Date: 2025-03-18 Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification, Eric Zhao+, ICML'25 GPT Summary- サンプリングベースの探索は、複数の候補応答を生成し最良のものを選ぶ手法であり、自己検証によって正確性を確認します。本研究では、この探索のスケーリング傾向を分析し、シンプルな実装がGemini v1.5 Proの推論能力を向上させることを示しました。自己検証の精度向上は、より大きな応答プールからのサンプリングによるもので、応答間の比較が有益な信号を提供することや、異なる出力スタイルが文脈に応じて役立つことを明らかにしました。また、最前線のモデルは初期の検証能力が弱く、進捗を測るためのベンチマークを提案しました。 Comment

元ポスト:

Loading…

ざっくりしか読めていないが、複数の解答をサンプリングして、self-verificationをさせて最も良かったものを選択するアプローチ。最もverificationスコアが高い解答を最終的に選択したいが、tieの場合もあるのでその場合は追加のpromptingでレスポンスを比較しより良いレスポンスを選択する。これらは並列して実行が可能で、探索とself-verificationを200個並列するとGemini 1.5 Proでo1-previewよりも高い性能を獲得できる模様。Self-consistencyと比較しても、gainが大きい。具体的なアルゴリズムはAlgorithm1を参照のこと。

<img width="656" height="236" alt="Image" src=" <a href="https://github.com/user-attachments/assets/a62625e1-5503-459c-91f3-b7018aba76a6"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/a62625e1-5503-459c-91f3-b7018aba76a6"</a> />

openreview: https://openreview.net/forum?id=wl3eI4wiE5



#Pocket #NLP #LanguageModel Issue Date: 2025-02-12 Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling, Runze Liu+, arXiv'25 GPT Summary- Test-Time Scaling (TTS)は、LLMsの性能向上に寄与する手法であり、ポリシーモデルやPRM、問題の難易度がTTSに与える影響を分析。実験により、最適なTTS戦略はこれらの要素に依存し、小型モデルが大型モデルを上回る可能性を示した。具体的には、1BのLLMが405BのLLMを超える結果を得た。これにより、TTSがLLMsの推論能力を向上させる有望なアプローチであることが示された。 #Pocket #NLP #LanguageModel #Architecture #LatentReasoning Issue Date: 2025-02-10 [Paper Note] Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach, Jonas Geiping+, arXiv'25 GPT Summary- 新しい言語モデルアーキテクチャを提案し、潜在空間での暗黙的推論によりテスト時の計算をスケールさせる。再帰ブロックを反復し、任意の深さに展開することで、従来のトークン生成モデルとは異なるアプローチを採用。特別なトレーニングデータを必要とせず、小さなコンテキストウィンドウで複雑な推論を捉える。3.5億パラメータのモデルをスケールアップし、推論ベンチマークでのパフォーマンスを劇的に改善。 #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #read-later #Selected Papers/Blogs Issue Date: 2025-02-07 s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25 GPT Summary- テスト時スケーリングを用いて言語モデルのパフォーマンスを向上させる新しいアプローチを提案。小規模データセットs1Kを作成し、モデルの思考プロセスを制御する予算強制を導入。これにより、モデルは不正確な推論を修正し、Qwen2.5-32B-Instructモデルがo1-previewを最大27%上回る結果を達成。さらに、介入なしでパフォーマンスを向上させることが可能となった。モデル、データ、コードはオープンソースで提供。 Comment

解説:

Loading…


#Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-01-28 Evolving Deeper LLM Thinking, Kuang-Huei Lee+, arXiv'25 GPT Summary- Mind Evolutionという進化的探索戦略を提案し、言語モデルを用いて候補応答を生成・洗練する。これにより、推論問題の形式化を回避しつつ、推論コストを制御。自然言語計画タスクにおいて、他の戦略を大幅に上回り、TravelPlannerおよびNatural Planのベンチマークで98%以上の問題を解決。 Comment

OpenReview: https://openreview.net/forum?id=nGP1UxhAbV&referrer=%5Bthe%20profile%20of%20Kuang-Huei%20Lee%5D(%2Fprofile%3Fid%3D~Kuang-Huei_Lee1)



#EfficiencyImprovement #Pocket #NLP #LanguageModel Issue Date: 2024-11-12 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, Charlie Snell+, arXiv'24 GPT Summary- LLMの推論時の計算をスケーリングすることで、挑戦的なプロンプトに対するパフォーマンスを改善する方法を研究。特に、密なプロセスベースの検証者報酬モデルとプロンプトに応じた応答の適応的更新を分析。プロンプトの難易度によって効果が変化し、計算最適戦略を適用することで効率を4倍以上向上。さらに、テスト時計算を用いることで小さなモデルが大きなモデルを上回ることが示された。 Comment

image

[Perplexity(参考;Hallucinationに注意)]( https://www.perplexity.ai/search/yi-xia-noyan-jiu-wodu-mi-nei-r-1e1euXgLTH.G0Wlp.V2iqA)



#Article #Pocket #NLP #LanguageModel #ReinforcementLearning #Selected Papers/Blogs #Aggregation-aware #KeyPoint Notes Issue Date: 2025-09-27 RECURSIVE SELF-AGGREGATION UNLOCKS DEEP THINKING IN LARGE LANGUAGE MODELS, Venkatraman+, preprint, 2025.09 Comment

N個の応答を生成し、各応答K個組み合わせてpromptingで集約し新たな応答を生成することで洗練させる、といったことをT回繰り返すtest-time scaling手法で、RLによってモデルの集約能力を強化するとより良いスケーリングを発揮する。RLでは通常の目的関数(prompt x, answer y; xから単一のreasoning traceを生成しyを回答する設定)に加えて、aggregation promptを用いた目的関数(aggregation promptを用いて K個のsolution集合 S_0を生成し、目的関数をaggregation prompt x, S_0の双方で条件づけたもの)を定義し、同時に最適化をしている(同時に最適化することは5.4節に記述されている)。つまり、これまでのRLはxがgivenな時に頑張って単一の良い感じのreasoning traceを生成しyを生成するように学習していたが(すなわち、モデルが複数のsolutionを集約することは明示的に学習されていない)、それに加えてモデルのaggregationの能力も同時に強化する、という気持ちになっている。学習のアルゴリズムはPPO, GRPOなど様々なon-poloicyな手法を用いることができる。今回はRLOOと呼ばれる手法を用いている。

<img width="1005" height="456" alt="Image" src=" <a href="https://github.com/user-attachments/assets/e83406ae-91a0-414b-a49c-892a4d1f23fd"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/e83406ae-91a0-414b-a49c-892a4d1f23fd"</a> />

様々なsequential scaling, parallel scaling手法と比較して、RSAがより大きなgainを得ていることが分かる。ただし、Knowledge RecallというタスクにおいてはSelf-Consistency (Majority Voting)よりもgainが小さい。
<img width="1017" height="427" alt="Image" src=" <a href="https://github.com/user-attachments/assets/8251f25b-472d-48d4-b7df-a6946cfbbcd9"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/8251f25b-472d-48d4-b7df-a6946cfbbcd9"</a> />

以下がaggregation-awareなRLを実施した場合と、通常のRL, promptingのみによる場合の性能の表している。全体を通じてaggregation-awareなRLを実施することでより高い性能を発揮しているように見える。ただし、AIMEに関してだけは通常のpromptingによるRSAの性能が良い。なぜだろうか?考察まで深く読めていないので論文中に考察があるかもしれない。
<img width="1026" height="547" alt="Image" src=" <a href="https://github.com/user-attachments/assets/146ab6a3-58c2-4a7f-aa84-978a5180c8f3"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/146ab6a3-58c2-4a7f-aa84-978a5180c8f3"</a> />

RLOO:
- [Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL'24, 2024.02

元ポスト:

Loading…

concurrent work:
- [Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv'25

あわせて読みたい:
- [Paper Note] Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory, Yexiang Liu+, ACL'25 Outstanding Paper



#Article #Tutorial #NLP #LanguageModel #Blog #Reasoning Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #Pocket #LanguageModel #Blog Issue Date: 2024-12-17 Scaling test-time-compute, Huggingface, 2024.12 Comment

これは必読



#Article #NLP #LanguageModel #Chain-of-Thought #Reasoning #KeyPoint Notes Issue Date: 2024-09-13 OpenAI o1, 2024.09 Comment

Jason Wei氏のポスト:

Loading…

- Think before you speak: Training Language Models With Pause Tokens, Sachin Goyal+, N/A, ICLR'24



- Implicit Chain of Thought Reasoning via Knowledge Distillation, Yuntian Deng+, N/A, arXiv'23

で似たような考えはすでに提案されていたが、どのような点が異なるのだろうか?



たとえば前者は、pauseトークンと呼ばれるoutputとは関係ないトークンを生成することで、outputを生成する前にモデル内部で推論する前により多くのベクトル操作を加える(=ベクトルを縦方向と横方向に混ぜ合わせる; 以後ベクトルをこねくりまわすと呼称する)、といった挙動を実現しているようだが、明示的にCoTの教師データを使ってSFTなどをしているわけではなさそうに見える(ざっくりとしか読んでないが)。

一方、Jason Wei氏のポストからは、RLで明示的により良いCoTができるように学習をしている点が違うように見える。

**(2025.0929): 以下のtest-time computeに関するメモはo1が出た当初のものであり、私の理解が甘い状態でのメモなので現在の理解を後ほど追記します。当時のメモは改めて見返すとこんなこと考えてたんだなぁとおもしろかったので残しておきます。**

学習の計算量だけでなく、inferenceの計算量に対しても、新たなスケーリング則が見出されている模様。

image



テクニカルレポート中で言われている time spent thinking (test-time compute)というのは、具体的には何なのだろうか。



上の研究でいうところの、inference時のpauseトークンの生成のようなものだろうか。モデルがベクトルをこねくり回す回数(あるいは生成するトークン数)が増えると性能も良くなるのか?

しかしそれはオリジナルのCoT研究である
- Chain of thought prompting elicits reasoning in large language models, Wei+, Google Research, NeurIPS'22

のdotのみの文字列をpromptに追加して性能が向上しなかった、という知見と反する。



おそらく、**モデル学習のデコーディング時に**、ベクトルをこねくり回す回数(あるいは生成するトークン数)を増やすこと=time spent thinking (test-time compute) 、ということなのだろうか?

そしてそのように学習されたモデルは、推論時にベクトルをこねくり回す回数(あるいは生成するトークン数)を増やすと性能が上がる、ということなのだろうか。

もしそうだとすると、これは
- Think before you speak: Training Language Models With Pause Tokens, Sachin Goyal+, N/A, ICLR'24

のpauseトークンの生成をしながらfinetuningすると性能が向上する、という主張とも合致するように思うが、うーん。



実際暗号解読のexampleを見ると、とてつもなく長いCoT(トークンの生成数が多い)が行われている。

RLでReasoningを学習させる関連研究:
- ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N/A, ACL'24
- Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning, Zhiheng Xi+, N/A, ICML'24

以下o1の動きに関して考えている下記noteからの引用。



>これによって、LLMはモデルサイズやデータ量をスケールさせる時代から推論時間をスケールさせる(つまり、沢山の推論ステップを探索する)時代に移っていきそうです。



なるほど。test-compute timeとは、推論ステップ数とその探索に要する時間という見方もあるのですね。



またnote中では、CoTの性能向上のために、Process Reward Model(PRM)を学習させ、LLMが生成した推論ステップを評価できるようにし、PRMを報酬モデルとし強化学習したモデルがo1なのではないか、と推測している。

PRMを提案した研究では、推論ステップごとに0,1の正誤ラベルが付与されたデータから学習しているとのこと。

なるほど、勉強になります。



note: https://note.com/hatti8/n/nf4f3ce63d4bc?sub_rt=share_pb

note(詳細編): https://note.com/hatti8/n/n867c36ffda45?sub_rt=share_pb

こちらのリポジトリに関連論文やXポスト、公式ブログなどがまとめられている: https://github.com/hijkzzz/Awesome-LLM-Strawberry

これはすごい。論文全部読みたい