Planning


Paper/Blog Link My Issue
#Pocket #NLP #Dataset #AIAgents #Evaluation #read-later #Initial Impression Notes Issue Date: 2026-01-14 GPT Summary- 自律的な機械学習エージェントは「生成-実行-フィードバック」パラダイムに依存しているが、高価な実行に制約されている。本研究では、事前情報を内部化し、瞬時の予測的推論に置き換えることでこの問題を解決。データ中心のソリューションを形式化し、18,438のペア比較からなるコーパスを構築。LLMが高い予測能力を示し、61.5%の精度を達成。FOREAGENTエージェントは予測-確認ループを採用し、収束を6倍速め、実行ベースラインを6%上回る成果を達成。コードとデータセットは近日中に公開予定。 Comment

元ポスト:

Loading…

(読了前の第一印象)問題設定や着眼点が実用的で興味深い。




Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #AIAgents #LongSequence #read-later #DeepResearch #memory Issue Date: 2025-09-17 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究(OEDR)に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#NLP #AIAgents #Prompting #Reasoning #IJCAI #Workshop #IdeaGeneration Issue Date: 2025-08-30 Comment

元ポスト:

Loading…

Patentからmarket-readyなプロダクトのコンセプトを生成し評価するタスク(PBIG)に取り組んでいる。
Reasoningモデルはコストとレスポンスの遅さから利用せず(iterationを重ねることを重視)、LLMのアシストを受けながらpromptを何度もhuman in the loopでiterationしながら品質を高めていくアプローチをとり、リーダーボードで1st placeを獲得した模様。




Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2023-05-21 GPT Summary- 本論文では、LLMsを使用して複雑な計画タスクを解決するための新しいベンチマークであるNatural Language Planning(NLP)を提案し、CoSという新しい手法を導入して、LLMsがシンボリック表現をより理解しやすくすることを示した。CoSはChatGPTやInstructGPTでの入力トークン数を削減し、Brick Worldで60.8%の精度を達成するなど、性能の向上を実現した。 Comment

LLMは複雑なプランニングが苦手なことが知られており、複雑な環境を自然言語ではなく、spatialでsymbolicなトークンで表現することで、プランニングの性能が向上したという話
image

OpenReview: https://openreview.net/forum?id=B0wJ5oCPdB




Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2023-04-25 Comment

LLMは長いプランニングをすることが苦手だったが、classicalなplannerは適切なinputの形式に変換されていればすぐに最適なプランを導出できる、が、自然言語は受け付けない、といった互いが互いを補完し合う関係にあるので、両者を組み合わせました、という話。
LLMを利用して、planning problemを記述した自然言語をclassicalなplannerのinputへ変換。その後plannerで最適なplanを見つけ、自然言語にplanを逆翻訳する。
image