Exploration
[Paper Note] Lattice Deduction Transformers, Liam Davis+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #Transformer #Architecture #On-Policy #RecurrentModels Issue Date: 2026-06-03 GPT Summary- 格子推論トランスフォーマー(LDT)は、潜在状態を格子に射影することで論理的推論を行う再帰的トランスフォーマー。探索ベースの制約解法の推論プロセスを模倣し、抽象解釈に基づく近似で訓練。80万パラメータのLDTはSudoku-ExtremeとSnowflake Sudokuで100%の精度を達成し、コスト面で優れた実績を示す。180万パラメータのバリアントはMaze-Hardで99.9%の精度を記録。一方、最先端のLLMsは全ベンチマークで0%。 Comment
元ポスト:
[Paper Note] Look Before You Leap: Autonomous Exploration for LLM Agents, Ziang Ye+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #Diversity #KeyPoint Notes Issue Date: 2026-05-21 GPT Summary- 大規模言語モデルに基づくエージェントは、環境特異的情報を取得する前に過去の知識で行動することにより失敗することがある。この問題に対処するため、探索チェックポイントカバレッジという指標を導入し、エージェントの探索の広さを測定。評価の結果、従来の強化学習エージェントは狭い行動パターンを示し、下流性能に悪影響を及ぼすことが判明。対策として、探索とタスク実行を交互に行う訓練戦略、Explore-then-Actパラダイムを提案し、環境知識を先に取得しそれをタスク解決に活かすことを促進する。結果から、体系的な探索の学習が一般化可能なエージェント構築に不可欠であることが示されている。 Comment
元ポスト:
environment中の鍵となるチェックポイントをエージェントが見つけた割合(Exploration Checkpoint Coverage; ECC; 環境内に定義された重要なlocation, object, affordance等をどれだけ発見できたか)を定義し、task-orientedなGRPOがECCを低下させる傾向にあることを検証(つまり、挙動が狭くなる)。
これを解決するために、ExplorationとActのロールアウトを分離してGRPOを実施するExploration-then-Actパラダイムを提案。このパラダイムでは、タスクを遂行するロールアウトと、ECC Rewardに基づいた探索をするロールアウトを分離し、探索に関して明示的な報酬を与える(従来はタスク実行の結果にimplicitに含まれているだけだった)。これらロールアウトに関するGRPOを交互に実施することによってポリシーを最適化する。inference時は、タスクのゴールを与えずにNステップ探索をし、探索したtrajectoryの要約とタスクのゴール、environmentに関する知識によって条件付けをしてactionを決定する。これにより従来のGRPOよりもALFWorld, ScienceWorld等のベンチマークで性能が向上し、エージェントの挙動としても、
- アクションの繰り返しの割合が低下
- ループする割合が低下
- 情報を探索する割合が向上
- エラーからリカバリーできる割合が増加
といった変化が見受けられた。
[Paper Note] LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities, Thomas Schmied+, ICLR'26, 2025.04
Paper/Blog Link My Issue
#Analysis #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #ICLR #Test-Time Scaling #PostTraining #Multi-Armed Bandit #DecisionMaking Issue Date: 2026-01-31 GPT Summary- LLMのエージェントアプリケーションにおける探求と解決の効率性を分析。最適なパフォーマンスを妨げる「知識と行動のギャップ」や貪欲性、頻度バイアスという失敗モードを特定。強化学習(RL)によるファインチューニングを提案し、探索を増加させて意思決定能力を改善。古典的な探索メカニズムとLLM特有のアプローチの両方を融合させ、効果的なファインチューニングの実現を目指す。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=weUP6H5Ko9
- greediness
- frequency bias
- the knowing-doing gap
