Overthinking


Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #On-Policy #Reference Collection #Author Thread-Post Issue Date: 2025-08-14 GPT Summary- GFPO(Group Filtered Policy Optimization)を提案し、応答の長さの膨張を抑制。応答を長さとトークン効率に基づいてフィルタリングし、推論時の計算量を削減。Phi-4モデルで長さの膨張を46-71%削減し、精度を維持。Adaptive Difficulty GFPOにより、難易度に応じた訓練リソースの動的割り当てを実現。効率的な推論のための効果的なトレードオフを提供。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=UKOqoULbZS




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning #Underthinking #Author Thread-Post Issue Date: 2025-08-19 GPT Summary- 思考型LLMsは複雑なタスクを解決する一方で、単純な問題に対して過剰に思考し、非思考型LLMsは速いが難しい問題に対して思考が不足する。これにより、最適なモデル選択がユーザーに委ねられる。OptimalThinkingBenchを導入し、過剰思考と過少思考を共同で評価する。72の単純な数学問題と11の難解な推論課題を含む二つのサブベンチマークを通じて33種のモデルを評価し、どのモデルも最適な思考ができないことを示す。最適思考を促す手法も、多くの場合、一方の性能を改善することで他方を犠牲にする結果となる。 Comment

元ポスト:

Loading…

元ポストの著者によるスレッドが非常にわかりやすいのでそちらを参照のこと。
ざっくり言うと、Overthinking(考えすぎて大量のトークンを消費した上に回答が誤っている; トークン量↓とLLMによるJudge Score↑で評価)とUnderthinking(全然考えずにトークンを消費しなかった上に回答が誤っている; Accuracy↑で評価)をそれぞれ評価するサンプルを収集し、それらのスコアの組み合わせでモデルが必要に応じてどれだけ的確にThinkingできているかを評価するベンチマーク。

Overthinkingを評価するためのサンプルは、多くのLLMでagreementがとれるシンプルなQAによって構築。一方、Underthinkingを評価するためのサンプルは、small reasoning modelがlarge non reasoning modelよりも高い性能を示すサンプルを収集。
image

image

現状Non Thinking ModelではQwen3-235B-A22Bの性能が良く、Thinking Modelではgpt-oss-120Bの性能が良い。プロプライエタリなモデルではそれぞれ、Claude-Sonnet4, o3の性能が良い。全体としてはo3の性能が最も良い。
image

openreview: https://openreview.net/forum?id=N5kWa3sRJt

著者による一言解説:

Loading…




Paper/Blog Link My Issue
#Survey #EfficiencyImprovement #NLP #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-03-22 GPT Summary- 本論文では、LLMsにおける効率的な推論の進展を体系的に調査し、以下の主要な方向に分類します:(1) モデルベースの効率的推論、(2) 推論出力ベースの効率的推論、(3) 入力プロンプトベースの効率的推論。特に、冗長な出力による計算オーバーヘッドを軽減する方法を探求し、小規模言語モデルの推論能力や評価方法についても議論します。 Comment

Reasoning Modelにおいて、Over Thinking現象(不要なreasoning stepを生成してしまう)を改善するための手法に関するSurvey。
image

下記Figure2を見るとよくまとまっていて、キャプションを読むとだいたい分かる。なるほど。
Length Rewardについては、
- [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, ICML'25

で考察されている通り、Reward Hackingが起きるので設計の仕方に気をつける必要がある。

image

元ポスト:

Loading…

各カテゴリにおけるliteratureも見やすくまとめられている。必要に応じて参照したい。
image