Planning
[Paper Note] Generative Scenario Rollouts for End-to-End Autonomous Driving, Rajeev Yasarla+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Reasoning #CVPR #Robotics #VisionLanguageActionModel Issue Date: 2026-02-23 GPT Summary- VLAモデルを用いた自動運転システムのためのGeRoフレームワークを提案。エゴ車両の動態を潜在トークンにエンコードし、言語条件付きの自己回帰生成を通じて交通シーンを共同生成。整合性損失を利用して予測を安定化し、長期的推論を支援。Bench2Driveで運転スコアを+15.7ポイント、成功率を+26.2ポイント改善。生成的かつ言語条件付けられた推論の有望性を示す。 Comment
元ポスト:
[Paper Note] ROBOINTER: A HOLISTIC INTERMEDIATE REPRESEN- TATION SUITE TOWARDS ROBOTIC MANIPULATION, ICLR'26 blindreview, 2026.02
Paper/Blog Link My Issue
#Dataset #QuestionAnswering #Chain-of-Thought #Annotation #Reasoning #VisionLanguageModel #Robotics #VisionLanguageActionModel #Manipulation Issue Date: 2026-02-05 Comment
openreview: https://openreview.net/forum?id=PGUC3mmMoi
元ポスト:
[Paper Note] DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints, Yinger Zhang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #LongHorizon Issue Date: 2026-01-27 GPT Summary- 長期タスクのエージェント評価にはグローバルな制約最適化が欠けている中、DeepPlanningという新たなベンチマークを導入。これは、能動的な情報収集や局所的制約を含む旅行計画やショッピングタスクを対象とし、最先端のLLMでも難しいことを示す。エラー分析を通じて、エージェント型LLMの改善につながる方向性を指摘し、研究支援のためにコードとデータをオープンソース化。 Comment
元ポスト:
[Paper Note] Toward Efficient Agents: Memory, Tool learning, and Planning, Xiaofang Yang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #memory Issue Date: 2026-01-24 GPT Summary- エージェントシステムの効率に関する研究を行い、メモリ、ツール学習、計画の3つのコアコンポーネントに焦点を当てる。コスト(レイテンシ、トークン、ステップ)を考慮し、圧縮や強化学習報酬、効率向上のための制御された探索メカニズムを活用する最近のアプローチをレビュー。効果とコストのトレードオフをパレートフロンティアを通じて評価し、効率指向のベンチマークや主要な課題、今後の方向性についても議論する。
[Paper Note] Agentic Reasoning for Large Language Models, Tianxin Wei+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #Reasoning #SelfImprovement #memory #One-Line Notes #Test-time Learning Issue Date: 2026-01-23 GPT Summary- エージェンティック推論は、LLMを自律的エージェントとして再構築し、計画や行動を行う新たなアプローチを提供します。本調査では、推論を基盤、自己進化、集合的の三つの次元に整理し、それぞれの特性と相互作用を探ります。また、文脈内推論とポストトレーニング推論の違いを示し、さまざまな現実世界でのアプリケーションをレビューします。この研究は、思考と行動を結びつける統一的なロードマップを提示し、今後の課題と方向性を概説します。 Comment
元ポスト:
agentのreasoning周りに特化したsurveyで基本的なsingle agentとしてのplanning, tool use, searchだけでなく、self evolving, memory, multi agent reasoningなど広範なトピックが網羅されているとのこと。
[Paper Note] Can We Predict Before Executing Machine Learning Agents?, Jingsheng Zheng+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #Evaluation #read-later #Initial Impression Notes Issue Date: 2026-01-14 GPT Summary- 自律的な機械学習エージェントは「生成-実行-フィードバック」パラダイムに依存しているが、高価な実行に制約されている。本研究では、事前情報を内部化し、瞬時の予測的推論に置き換えることでこの問題を解決。データ中心のソリューションを形式化し、18,438のペア比較からなるコーパスを構築。LLMが高い予測能力を示し、61.5%の精度を達成。FOREAGENTエージェントは予測-確認ループを採用し、収束を6倍速め、実行ベースラインを6%上回る成果を達成。コードとデータセットは近日中に公開予定。 Comment
元ポスト:
(読了前の第一印象)問題設定や着眼点が実用的で興味深い。
[Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #LongSequence #read-later #DeepResearch #memory Issue Date: 2025-09-17 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究(OEDR)に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment
元ポスト:
[Paper Note] MK2 at PBIG Competition: A Prompt Generation Solution, Xu+, IJCAI WS AgentScen'25, 2025.08
Paper/Blog Link My Issue
#NLP #AIAgents #Prompting #Reasoning #IJCAI #Workshop #IdeaGeneration Issue Date: 2025-08-30 Comment
元ポスト:
Patentからmarket-readyなプロダクトのコンセプトを生成し評価するタスク(PBIG)に取り組んでいる。
Reasoningモデルはコストとレスポンスの遅さから利用せず(iterationを重ねることを重視)、LLMのアシストを受けながらpromptを何度もhuman in the loopでiterationしながら品質を高めていくアプローチをとり、リーダーボードで1st placeを獲得した模様。
[Paper Note] Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models, Hanxu Hu+, arXiv'23, 2023.05
Paper/Blog Link My Issue
#NLP #LanguageModel #One-Line Notes #needs-revision Issue Date: 2023-05-21 GPT Summary- 自然言語で表現された仮想空間における複雑な計画タスクに対するLLMsの性能を調査し、新たなベンチマークNatalaを提案。LLMs(例: ChatGPT)は依然として計画能力に限界があり、象徴的表現が理解しやすい可能性を示す。新手法CoS(Chain-of-Symbol Prompting)は追加訓練なしでLLMsに適用でき、広範な実験でCoT(Chain-of-Thought)を上回る性能を達成。特に、ChatGPTの正確性が最大60.8%向上し、中間段階のトークン数も著しく削減された。 Comment
LLMは複雑なプランニングが苦手なことが知られており、複雑な環境を自然言語ではなく、spatialでsymbolicなトークンで表現することで、プランニングの性能が向上したという話
OpenReview: https://openreview.net/forum?id=B0wJ5oCPdB
[Paper Note] LLM+P: Empowering Large Language Models with Optimal Planning Proficiency, Bo Liu+, arXiv'23, 2023.04
Paper/Blog Link My Issue
#NLP #LanguageModel #KeyPoint Notes Issue Date: 2023-04-25 GPT Summary- LLMsは一般的な質問には優れた回答能力を示すが、長期的な計画問題には弱い。本研究では、古典的プランナーの強みをLLMsに統合した初のフレームワーク、LLM+Pを提案。自然言語の計画記述をPDDL形式に変換し、効率的に解を見つけて再翻訳する手法を採用。実験により、LLM+Pは多くの計画問題に対して最適解を提供できる一方、LLMsはほとんど問題を解決できないことが確認された。 Comment
LLMは長いプランニングをすることが苦手だったが、classicalなplannerは適切なinputの形式に変換されていればすぐに最適なプランを導出できる、が、自然言語は受け付けない、といった互いが互いを補完し合う関係にあるので、両者を組み合わせました、という話。
LLMを利用して、planning problemを記述した自然言語をclassicalなplannerのinputへ変換。その後plannerで最適なplanを見つけ、自然言語にplanを逆翻訳する。
