TreeSearchに関する論文・技術記事メモの一覧

TreeSearch

[Paper Note] Aligning Tree-Search Policies with Fixed Token Budgets in Test-Time Scaling of LLMs, Sora Miyamoto+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #ICML #Test-Time Scaling #Author Thread-Post Issue Date: 2026-05-06 GPT Summary- BG-MCTSは、残りのトークン予算に応じて探索方針を調整するツリー探索デコーディングアルゴリズムを提案。予算が残る間は広範囲に探索し、枯渇するにつれて洗練された回答を優先して浅いノードの分岐を抑制する。MATH500およびAIME24/25の多様な予算設定において、予算を考慮しない方法を一貫して上回る性能を示す。 Comment

元ポスト:

Loading…

[Paper Note] Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery, Michael P. Brenner+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ScientificDiscovery #Physics #Initial Impression Notes Issue Date: 2026-03-07 GPT Summary- 本論文では、AIが理論物理学の未解決問題を解決することで数学的発見を加速できることを示す。Gemini Deep Thinkを用いたニューロ-シンボリックシステムが、宇宙ひもによる重力放射のパワースペクトルについて新しい解析解を導出。エージェントはコア積分の評価を通じて、従来の部分的な漸近解を改善。探索制約とフィードバックループを詳細に説明し、最も効果的な解析法としてGegenbauer多項式を特定。これにより、漸近解が数値結果と整合し、量子場理論とも関連づけられることを示した。 Comment

元ポスト:

Loading…

Gemini Deep Thinkが今度は理論物理に関する未解決問題を解決したらしい？

[Paper Note] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information, Jiaxi Li+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Search #LanguageModel #Reasoning #Test-Time Scaling #Decoding Issue Date: 2025-10-08 GPT Summary- 相互情報量ツリー探索（MITS）を提案し、推論経路の評価と探索を効率化。PMIに基づくスコアリング関数を用い、計算コストを抑えつつ優れた推論性能を実現。エントロピーに基づく動的サンプリング戦略でリソースを最適配分し、重み付き投票方式で最終予測を行う。MITSは多様なベンチマークでベースラインを上回る結果を示した。 Comment

元ポスト:

Loading…

[Paper Note] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search, Fang Wu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #Search #LanguageModel #ReinforcementLearning #read-later #RLVR #On-Policy #One-Line Notes #ReplayBuffer Issue Date: 2025-10-04 GPT Summary- DeepSearchは、RLVRトレーニングにMonte Carlo Tree Searchを統合し、体系的な探索を可能にするフレームワーク。これにより、限られたロールアウトに依存せず、重要な推論経路を見逃さない。実験では、62.95%の平均精度を達成し、1.5B推論モデルで新たな最先端を確立。戦略的な探索の重要性を示し、RLVR手法の進展に向けた新たな方向性を提供。 Comment

元ポスト:

Loading…

最近はRL時の探索空間を増やす取り組みが増えてきているように感じる。

- Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03

にもあるように基本的にオンポリシーRLではリプレイバッファを使えないので何らかの工夫が必要、といった話があるが、この研究ではGRPOを前提としつつリプレイバッファを活用する枠組みとなっているようなので、どのような工夫が行われているのだろうか。勉強したい。

所見と解説:

Loading…

[Paper Note] An AI system to help scientists write expert-level empirical software, Eser Aygün+, arXiv'25

Paper/Blog Link My Issue
#NLP #Search #LanguageModel #AIAgents #ScientificDiscovery #read-later Issue Date: 2025-09-10 GPT Summary- AIシステムを用いて質の指標を最大化する専門的な科学ソフトウェアを生成。大規模言語モデルと木探索を活用し、複雑な研究アイデアを統合。バイオインフォマティクスや疫学の分野で新しい手法を発見し、既存のモデルを上回る成果を達成。多様なタスクに対する新しい解決策を提供し、科学的進歩を加速することを目指す。 Comment

元ポスト:

Loading…

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, NeurIPS'25

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Supervised-FineTuning (SFT) #MultiModal #Reasoning #NeurIPS #VisionLanguageModel Issue Date: 2024-12-31 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。