LongHorizon
Issue Date: 2025-11-20 [Paper Note] Solving a Million-Step LLM Task with Zero Errors, Elliot Meyerson+, arXiv'25, 2025.11 GPT Summary- LLMの限界を克服するために、MAKERというシステムを提案。これは、100万以上のステップをゼロエラーで解決可能で、タスクを細分化し、マイクロエージェントが各サブタスクに取り組むことでエラー修正を行う。これにより、スケーリングが実現し、組織や社会の問題解決に寄与する可能性を示唆。 Comment
元ポスト:
しっかりと読めていないのだが、各タスクを単一のモデルのreasoningに頼るのではなく、
- 極端に小さなサブタスクに分解
- かつ、各サブタスクに対して複数のエージェントを走らせてvotingする
といったtest-time scalingっぽい枠組みに落とすことによってlong-horizonのタスクも解決することが可能、というコンセプトに見える。
#Pocket #NLP #ReinforcementLearning #AIAgents #ScientificDiscovery
Issue Date: 2025-11-12 [Paper Note] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction, Guoxin Chen+, arXiv'25, 2025.11 GPT Summary- IterResearchという新しい反復的深層研究パラダイムを提案し、長期的な研究をマルコフ決定過程として再定義。進化するレポートをメモリとして維持し、洞察を統合することで一貫した推論能力を保持。効率意識型ポリシー最適化(EAPO)を開発し、探索を促進。実験により、既存のエージェントに対して平均+14.5ポイントの改善を達成し、2048回のインタラクションでパフォーマンスが劇的に向上。IterResearchは長期的な推論のための効果的な解決策として位置づけられる。 Comment
HF: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
元ポスト:
#Pocket #NLP #LanguageModel #AIAgents #ContextEngineering
Issue Date: 2025-10-30 [Paper Note] AgentFold: Long-Horizon Web Agents with Proactive Context Management, Rui Ye+, arXiv'25, 2025.10 GPT Summary- AgentFoldは、LLMベースのウェブエージェントのコンテキスト管理の課題に対処する新しいパラダイムであり、人間の認知プロセスに触発されています。エージェントは「フォールディング」操作を通じて、歴史的な情報を動的に管理し、重要な詳細を保持しつつサブタスクを抽象化します。実験結果では、AgentFold-30B-A3BエージェントがBrowseCompで36.2%、BrowseComp-ZHで47.3%の性能を達成し、従来の大規模モデルや先進的なプロプライエタリエージェントを上回ることが示されました。 Comment
元ポスト:
元ポスト:
pj page: https://jen-pan.github.io/memer/
動画ストリーム全てを常にinputするのではなくキーフレームは限られているので、VLMにキーフレームをメモリ上で管理するような役割を与え、instructionと実現するためのサブタスクに応じて動的に必要な情報のみをVLAに与えることでlong horizonでのスケーラビリティを改善する、みたいな話らしい
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ(RLVR)は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment
pj page: https://reasoning-horizon.github.io
元ポスト:
long horizonタスクにうまく汎化する枠組みの必要性が明らかになったように見える。long horizonデータを合成して、post trainingをするという枠組みは短期的には強力でもすぐに計算リソースの観点からすぐに現実的には能力を伸ばせなくなるのでは。
ポイント解説:
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Diversity #Verification #DeepResearch Issue Date: 2025-10-21 [Paper Note] Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- Webベースの「ディープリサーチ」エージェントは、長期的なインタラクションを通じて複雑な質問応答タスクを解決することを目指すが、従来の方法は推論の複雑さを捉えきれない。そこで、タスクの複雑さを段階的に増加させる二段階のデータ合成パイプラインを導入し、ベースラインエージェントが質問に挑戦し、事実確認を行う。実験により、提案したデータセットが既存のものよりも効果的な訓練を可能にし、ツール使用アクションの多様性が2倍であることが示された。 Comment
元ポスト:
#Pocket #NLP #ReinforcementLearning #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #DeepResearch Issue Date: 2025-10-18 [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment
pj page: https://context-folding.github.io
元ポスト:
エージェント自身にcontextを管理する能力を学習させる
#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData Issue Date: 2025-10-09 [Paper Note] h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning, Sumeet Ramesh Motwani+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルは短期的な推論には強いが、長期的な推論では性能が低下する。既存のアプローチはスケールしにくい。本研究では、短期データを用いて長期的な推論能力を向上させるスケーラブルな方法を提案。単純な問題を合成し、複雑な多段階依存チェーンを構成。結果のみの報酬でモデルを訓練し、カリキュラムを通じて精度を向上。実験により、GSM8Kでの訓練がGSM-SymbolicやMATH-500などのベンチマークでの精度を最大2.06倍向上させることを示した。理論的には、カリキュラムRLがサンプルの複雑さにおいて指数的な改善を達成することを示し、既存データを用いた長期的な問題解決の効率的な道を提案。 Comment
元ポスト:
著者ポスト:
#Article #Blog #Zero/FewShotLearning #read-later #Generalization #Robotics Issue Date: 2025-11-20 ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11 Comment
元ポスト:
テレオペレーション(遠隔操作; 模倣学習に使われるのだと思われる)ではなく、Skill Capture Gloveと呼ばれる手に装着するタイプのデバイスから収集したデータのみを収集して学習するらしい。手のデータは収集できるが、身長や腕の長さ、視覚的な情報が異なるではないか、という点については、グローブのデータを同等のロボットのデータに変換するみたいなことをするらしい。(ゆるふわ理解)
#Article #NLP #AIAgents #Blog #ScientificDiscovery #Test-Time Scaling Issue Date: 2025-11-20 Previewing Locus, INTOLOGY, 2025.11 Comment
元ポスト:
所見: