AIAgentsに関する論文・技術記事メモの一覧

AIAgents

[Paper Note] PolySkill: Learning Generalizable Skills Through Polymorphic Abstraction, Simon Yu+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #Selected Papers/Blogs #Generalization #One-Line Notes #AgentSkills #Author Thread-Post Issue Date: 2026-04-23 GPT Summary- 大規模言語モデル（LLMs）を利用して、エージェントが一般化可能なスキルを学習するための新しいフレームワーク「PolySkill」を提案。スキルの抽象的な目標と具体的な実行を切り離すことで、スキルの再利用や一般化を促進。実験では、ウェブサイトでのスキル再利用を1.7倍向上させ、成功率を最大13.9%向上させた。PolySkillにより、エージェントが自己目標を識別し、より良いカリキュラムを学習する能力が高まり、継続的に学習できる自律エージェントの構築に寄与することが示された。 Comment

元ポスト:

Loading…

エージェントスキルにポリモーフィズムの考え方を導入し、WhatとHowを分離することで汎化性能を高める。下図が分かりやすい。

最初に特定ドメインのwebサイト（e.g., shopping)を訪れた際に、AbstractShoppinpクラスを生成しShopping関連を扱うクラスとする。その上で、特定サイト（e.g., Amazon)のスキルを生成する際は、AbstractShoppingクラスにシグネチャを登録した後、同クラスを継承。AmazonShoppingクラス内に具体的な処理を定義する。直接スキルを生成するのではなく、抽象スキルを生成した上で、特定サイトでのメソッドを実装する。

openreview: https://openreview.net/forum?id=KdEsujyiSV

[Paper Note] Scaling Test-Time Compute for Agentic Coding, Joongwon Kim+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #Test-Time Scaling #SoftwareEngineering #Author Thread-Post Issue Date: 2026-04-23 GPT Summary- 推論時スケーリングは、長期的展望を持つコーディングエージェントに適用され、過去の経験を効果的に表現・再利用することが重要。提案するフレームワークでは、ロールアウトを構造化要約に変換し、重要な仮説や進捗を保持する。並列スケーリングとしてRecursive Tournament Votingを導入し、逐次スケーリングにはParallel-Distill-Refineを適用。SWE-Bench VerifiedやTerminal-Bench v2.0でシステムの性能を向上させる結果を示した。 Comment

元ポスト:

Loading…

[Paper Note] Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence, Guanting Dong+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #SelfImprovement #PostTraining #RLVR #Scalability #Environment Issue Date: 2026-04-22 GPT Summary- 汎用エージェントとしての大規模言語モデルの期待が高まる中、Agent-Worldを提案。これは、エージェントが多様な実世界環境を探索し、自律的にタスクを合成する仕組みを提供。強化学習と動的なタスク合成により、エージェントの能力を向上させ、共進化を促進。実験で、Agent-Worldが複数のベンチマークで他のモデルを一貫して上回ることを示す。汎用エージェント知能構築のヒントも提示。 Comment

元ポスト:

Loading…

pj page: https://agent-tars-world.github.io/-/

[Paper Note] Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG, Yiqun Sun+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #FactualKnowledge #KeyPoint Notes #Clustering-based #AgentSkills Issue Date: 2026-04-21 GPT Summary- 検索強化生成（RAG）の限界を克服するために、Corpus2Skillを提案。これは文書コーパスを階層的なスキルディレクトリに変換し、LLMエージェントが効率的にナビゲート可能にする。文書をクラスタリングし、各レベルで要約を生成して構築。提供時に、エージェントはコーパス全体を把握し、段階的にトピックを掘り下げ、証拠を効果的に組み合わせる。実験により、WixQAのベンチマークでRAGの他の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

Agent Skillsの機構を利用し、Skillsを検索におけるIndexのような位置づけで活用し、Skillsを用いて階層化された知識をnavigateさせることで、抽象的な情報からより細かい情報までdrill-downさせるような挙動を実現させ、RAGの性能を向上させる。

Skillsを定義する際は、
- root level (Skill.md)
- leaf level (Index.md)

によって構成され、root levelではトピックに関する情報+クラスタのメタ情報、leaf levelでは個別のdocのtitle+IDによって構成される。

Documentを階層化する際にはクラスタリングを用いる。具体的にはクラスタリングを実施し、クラスタの内容をLLMに要約させ、要約させた情報に基づいてさらにクラスタリングをする、という処理を繰り返すことで階層化を実現していそうに見える。Servingの時はSkill.md, Index.md, Document Storeに対して、2種類のツール `code_execution`, `get_document` を用いて、ツリーを探索し、relevantなdocを取得する。code_executionは具体的には、SKILL.mdとIndex.mdをviewコマンドによって閲覧し、階層構造全体を俯瞰できるようにする。get_documentでは、docのidentifierを用いて、identifierと対応するdocの全文を取得する。

BM25, Denseなどのbaselineと比較して高い性能を獲得している。性能に対してコスト比が併記されているが、トークン空間上で思考し探索をするためコストは高いように見える。個人的に気になるのは、金銭的なコストもそうだが、latencyである。embeddingを用いたRAGに対して、相当latencyが遅いのではないか？と思われる。

[Paper Note] Thought-Retriever: Don't Just Retrieve Raw Data, Retrieve Thoughts for Memory-Augmented Agentic Systems, Tao Feng+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#Embeddings #InformationRetrieval #NLP #LanguageModel #Chain-of-Thought #Selected Papers/Blogs #memory Issue Date: 2026-04-20 GPT Summary- LLMが外部知識を効果的に取り込む課題を解決するために、Thought-Retrieverという新しいアルゴリズムを提案。これは、過去のユーザークエリで生成された中間応答を活用し、冗長な思考をフィルタリングして新しいクエリに関連する思考を取り出すことで、長期記憶を構築。AcademicEvalという新たなベンチマークで広範な実験を行い、Thought-Retrieverが最先端モデルを上回る成果を示した。特に、より多くのクエリ解決後に自己進化を促し、抽象的な問いへの応答能力を向上させることが確認された。 Comment

元ポスト:

Loading…

[Paper Note] LinuxArena: A Control Setting for AI Agents in Live Production Software Environments, Tyler Tracy+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #SoftwareEngineering #Live Issue Date: 2026-04-20 GPT Summary- LinuxArenaは、エージェントが実稼働環境で操作するための制御設定で、20の環境、1,671の主要タスク、184の安全性に関するサイドタスクを含みます。妨害評価を通じて、主要タスクを完了しつつサイドタスクを処理できるかを検証し、GPT-5-nanoのモニターが1%の偽陽性率で多数の未検出妨害成功率を示しました。また、人手作成の攻撃軌跡データセットLaStrajを公開し、現行の攻撃方針がLinuxArenaに影響を与えていないことを示しました。これにより、LinuxArenaが攻撃者と防御者双方にとって重要な研究基盤となることが示唆されました。 Comment

元ポスト:

Loading…

[Paper Note] Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems, Jiacheng Liu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #SoftwareEngineering #read-later #ContextEngineering #memory #AgentHarness Issue Date: 2026-04-20 GPT Summary- Claude Codeは、シェルコマンド実行やファイル編集をユーザーに代わって行うエージェント型コーディングツールであり、そのアーキテクチャをTypeScriptソースコードから分析する。本研究では、アーキテクチャを形成する五つの人間的価値観と十三の設計原理を特定し、実装に反映させる。システムは単純なwhileループを中心に構成されるが、その周囲には多様な機能が存在し、OpenClawと比較することで異なるアーキテクチャ的応答を示す。最後に、将来のエージェントシステムにおける未解決の設計指針を六つ特定した。 Comment

元ポスト:

Loading…

[Paper Note] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents, Mingyu Ouyang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #Evaluation #MultiModal #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Game #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-19 GPT Summary- MLLMエージェントの課題を解決するため、テストベッドとしてGameWorldを導入。34のゲームと170のタスクを含み、性能評価を標準化。結果はエージェントが人間の能力には及ばないことを示唆。ゲームエージェントの相互作用や記憶、アクション妥当性に関する研究が今後の課題を明らかに。再現性のある評価フレームワークとして、GameWorldはマルチモーダルゲームエージェント研究の進展を促進。 Comment

元ポスト:

Loading…

Geminiがポケモンで評価されていたのと似ている。個人的にこの方向性の評価は非常に興味深く、理由としては
- ゲームをプレイしたデータはモデルの中の知識（学習データ）として埋め込まれずらく、コンタミネーションが生じづらい
- 知識がないのであれば、プレイして、ゲームという名の仮想世界のルールを理解してゲームをクリアせねばならず、これには高度な認知能力、プランニング、Reflectionなどの能力が求められる
- これらの能力が発揮されるには学習データのパターンから学習した手続きの適用よりも、より抽象的な理解が求められ、モデルがどれだけ人間の認知に近い能力を獲得しているかを測定できるのでは

という感想を持っているからである。

pj page: https://gameworld-project.github.io/

[Paper Note] Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering, Xinyu Zhu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #memory #Hierarchical #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-17 GPT Summary- エージェント型科学における超長期自律性の課題に対し、ML-Master 2.0という自律エージェントを提案。階層型認知キャッシュ（HCC）を導入し、瞬時の実行と長期的戦略を切り離して一貫性を持たせる。評価では、最先端のメダル獲得率56.44%を達成し、AIの自律的探索の可能性を示唆。 Comment

元ポスト:

Loading…

contextを
- experience (short-term)
- knowledge (mid-term)
- wisdom (long-term)

の3つの階層に分類し管理するmemory機構を提案しているようである。
階層ごとに異なる記憶容量とアクセス速度で実装し、必要に応じて階層間でデータが昇格（experience->knowledge等）、あるいは削除される、といった機構によってmemory cacheを管理するような手法のようである。

MLE-BenchでSoTA

[Paper Note] Process Reward Agents for Steering Knowledge-Intensive Reasoning, Jiwoong Sohn+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #Chain-of-Thought #Reasoning #PRM #FactualKnowledge #Initial Impression Notes Issue Date: 2026-04-17 GPT Summary- PRAは、凍結済みポリシーに対するオンラインかつ段階的な報酬を提供することで、推論プロセスを改善。検索ベースのデコードにより、生成ステップごとに候補をランキングし、剪定する。医療推論ベンチマークで一貫して高い性能を示し、未見のポリシーモデルに対しても精度を最大25.7%向上させる。PRAはドメイン固有の報酬モジュールを通じて、複雑なドメインで再訓練なしに新たなバックボーンを展開可能にする。 Comment

pj page: https://process-reward-agents.github.io/

元ポスト:

Loading…

Reasoning中に独立したProcess Reward Agent (PRA) によって外部知識からevidenceを検索しreasoning stepに対してrewardを与えることで、reasoning step単位のrewardを実現し、これによりknowledge-intensiveなドメインに対してより頑健な推論が可能になる、という感じだろうか。medical domainで評価しており、self-consistency+RAGなどの手法を上回っているように見える（が、Fair Comparisonになっているだろうか、という点が少し気になる）。あとは、汎用的な手法だと思われるので、medicalドメインだけでなく他のknowledge-intentiveなドメインでの評価もあるとなお良さそうに感じる。

[Paper Note] Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks, Yoonsang Lee+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Test-Time Scaling #LongHorizon #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-16 GPT Summary- エージェント的タスクに対する並列テスト時スケーリングの研究を行い、集約エージェントAggAgentを提案。複数のロールアウトを生成し、軌跡の情報を効果的に統合しながら、出力のオープンエンド性に対応。AggAgentは6つのベンチマークと3つのモデルファミリーで既存手法を上回り、改善を達成しつつ、オーバーヘッドを最小限に抑えた。これにより、エージェント的集約の効率性が確認された。 Comment

元ポスト:

Loading…

Parallel test time scalingをじっしするlong horizon AI Agentの複数のtrajectoryを集約する手法のようである

[Paper Note] Memory Intelligence Agent, Jingyang Qiao+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #MultiModal #ContrastiveLearning #VisionLanguageModel #DeepResearch #memory #reading #Test-time Learning #Initial Impression Notes #needs-revision Issue Date: 2026-04-14 GPT Summary- DRAはLLMの推論と外部ツールを組み合わせ、過去の経験を活用するメモリシステムを含む。従来の方法はメモリの効率性に課題があり、MIAフレームワークを提案してこれを解決。プランナーとエグゼキューターから成る新しいアーキテクチャは、交互の強化学習で協調を強化し、推論中の更新を実現。さらに、記憶の双方向変換を可能にし、自己進化を促進する機構も搭載。広範な実験でMIAの優位性を示した。 Comment

元ポスト:

Loading…

元ポストを読みなんとなーく分かったつとりになっているゆるふわ理解だが、Plannerのパラメータに経験をTest Time Learningの枠組みを埋め込み、既存のノンパラメトリックなメモリにtrajectoryも活用する二段構えである点が新しい点に感じた。

元論文を流し読みすると、Executor（vlm), Planner(llm, parametricなmemory), Memory Manager(trajectoryを格納; non parametricなmemory)の3つにマルチモーダルなAI Agentを分離する。

plannerは（ToDo 3.2節を読むべし

executorはplannerと過去のtrajectoryに基づいて実行をする。executorはGRPOに」るRLVRで訓練されるが、tool use, plannerのトークンはマスクされ学習される。

（後ほど追記

[Paper Note] ClawBench: Can AI Agents Complete Everyday Online Tasks?, Yuxuan Zhang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #Selected Papers/Blogs #Generalization #VisionLanguageModel #Live #One-Line Notes #Environment Issue Date: 2026-04-11 GPT Summary- ClawBenchは、次世代AIエージェントを評価するための153の簡単なタスクからなるフレームワークを提供。これにより、ユーザーからの情報取得や多段階ワークフローのナビゲーション、高度なフォーム記入といった複雑なタスクを評価可能。従来の静的なベンチマークと異なり、実際のウェブサイトで動作するため、現実的な評価を可能にする。評価では、商用・オープンソースモデルがタスクの一部しか完了できないことが示され、AIエージェントの汎用性向上に寄与することが期待される。 Comment

元ポスト:

Loading…

pj page: https://claw-bench.com

実際のwebsiteに対して、日常的なオンラインでの153タスクを実行しweb agentを評価可能なフレームワークな模様。既存のオフライン、かつサンドボックスなベンチマークでは75%程度のスコアを達成していたGPT-5.4が、6.5%までスコア低下。

タスク性能の可否は、タスクのinstruction, 人間によるreference actionとpayload, エージェントの実際のactionとpayloadを与えて、AgenticなAIによって、ルーブリックに基づいて判断されるようである（Figure7)。

github: https://github.com/reacher-z/ClawBench

タスクinstructionの一覧は下記:
https://github.com/reacher-z/ClawBench/tree/main/test-cases

たとえば、UberEatsでパッタイをピーナッツ抜きで一つ注文する、といったタスクがある。

[Paper Note] The Art of Building Verifiers for Computer Use Agents, Corby Rosset+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #ComputerUse #read-later #Selected Papers/Blogs #Verification #Rubric-based Issue Date: 2026-04-11 GPT Summary- CUA軌跡の検証は評価信号の信頼性に不可欠である。本研究では、ノイズを減らしたルーブリックの構築、プロセスと成果報酬の分離、失敗の制御、文脈管理スキームの導入を行い、Universal Verifierを設計。新しいCUA軌跡集合CUAVerifierBenchでの検証により、人間の合意に匹敵する精度を示し、偽陽性率をほぼゼロに低減。自動研究エージェントは専門家の品質を70%達成するが、Universal Verifierの戦略発見には失敗。システムとデータセットはオープンソースとして公開。 Comment

元ポスト:

Loading…

[Paper Note] Gym-Anything: Turn any Software into an Agent Environment, Pranjal Aggarwal+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #OpenSource #PostTraining #read-later #Selected Papers/Blogs #Environment #Author Thread-Post Issue Date: 2026-04-10 GPT Summary- Gym-Anythingを用いて任意のソフトウェアを対話型環境に変換するフレームワークを提案。コーディングエージェントが設定を行い、独立した監査エージェントが品質を検証する。200のソフトウェアアプリケーションに適用し、1万件超の長期タスクを含むCUA-Worldを生成。特に長期ベンチマークCUA-World-Longを用いて高難易度タスクを評価し、訓練されたモデルが優れた性能を示すことが明らかに。全てのコードとデータを公開し、今後の研究を促進することを目指す。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Mixture-of-Minds: Multi-Agent Reinforcement Learning for Table Understanding, Yuhang Zhou+, ACL'26, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #TabularData #SelfImprovement #ACL #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2026-04-07 GPT Summary- 表の理解と推論を高めるため、マルチエージェントフレームワークMixture-of-Mindsを提案。計画、コーディング、回答の役割に分割し、各エージェントが特定の側面を担う。自己改善トレーニングにモンテカルロ木探索を用いて強化学習を最適化。実験結果ではTableBenchで62.13%の改善を達成し、構造化されたアプローチの有効性を示す。 Comment

元ポスト:

Loading…

複雑なタスクを特化型のエージェントに分解し、個々のエージェントを学習するためのpseudo-gold trajectoryを合成しエージェントをFinetuning。その後、FinetuningしたエージェントをGRPOによってend-to-endで学習する、という話に見える。pseudo-gold trajectoryは、個々の特化型のエージェントに対して複数の解候補を出力させ、解候補を次のエージェントに入力し解候補を生成...という手順をsequentialに適用していき、最終的に正しい応答を導き出せたtrajectoryを後ろ向きにたどることによって、pseudo-gold trajectoryを得る。FinetuningとRLがどのような順番で実施されるか、あるいは繰り返されるのか、といった部分についてはしっかり読み解けていない。

表データで実験をしているが、それは一つの応用例であり、汎用的に利用可能な手法と考えられる。

[Paper Note] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization, He Du+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining #EvolutionaryAlgorithm #GPUKernel Issue Date: 2026-04-05 GPT Summary- Kernel-Smithは、高性能GPUカーネルと演算子生成のためのフレームワークで、評価駆動型進化エージェントを用いて候補プログラムを改善。NVIDIAとMetaXのバックエンド特化評価サービスを活用し、トレーニングは強化学習信号とステップ中心の監督を結合。Kernel-Smith-235B-RLは、NVIDIA Tritonバックエンドにおいて総合性能の最先端を達成し、他モデルを上回る。さらに、MetaX MACAバックエンドでの適応も成功し、本番システムへの実用的な寄与を示す。 Comment

元ポスト:

Loading…

[Paper Note] SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization, Zhengxi Lu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #In-ContextLearning #CurriculumLearning #KeyPoint Notes #ContinualLearning #AgentSkills Issue Date: 2026-04-05 GPT Summary- エージェントのスキルをモデルのパラメータに内部化し、ゼロショットの自律的挙動を実現するために「SKILL0」というインコンテキスト強化学習フレームワークを提案。訓練ではスキル文脈を段階的に撤回し、オフラインでグループ化したスキルを用いて効率的なツール呼び出しを実現。実験結果では、SKILL0が標準のRLベースラインに対して顕著な改善を示し、文脈量も効率的に管理されることを確認。 Comment

元ポスト:

Loading…

流し読みなので誤りがあるかもしれないが、

- [Paper Note] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning, Peng Xia+, arXiv'26, 2026.02

によって構築されたSKILLBANKによるスキルを、ポリシーの内部パラメータに学習させることができるか？を調査した研究で、内部パラメータに学習することで、検索とskillの読み込みによるcontextをモデルのパラメータに内在化させることでcontextを削減できる。外部スキルに完全に依存していたSkillRLとの対比として、内部パラメータにスキルを内在させるコンセプトからSKILL0と命名されていると思われる。

提案手法の概要としては下記Figure.2であるが、個人的には式(2), (3), (4), (5), (6)をみた方が、直感的に分かりやすいように感じた。最適化手法としてはGRPOだが、圧縮率を考慮した報酬設計と、カリキュラムの段階的な構築が肝であり、

- 圧縮率c_t \in (0, 1] の圧縮率の元、これまでのcontext h_t, retrieveされたスキルSをVision Encoderでエンコードし潜在表現V_tを得て[^1]; 式(2)
- V_tに基づいて次のaction a_tがポリシーによって生成される; 式(3)
- GRPO 式(5) が通常のRLVRに加えて、式(4)で表される圧縮率に基づいた報酬によって定義され実行される。要は、より高い圧縮率でcontext、およびretrieved skillを圧縮してタスクが成功したら報酬がより高くなる

という構造になっている。学習させる際は、カリキュラム学習を実施する(3.3節）。どのようにカリキュラム学習を成立させるかというと、学習をいくつかのstageに分けて、ポリシーに与えるSkillのContextを線形にdecayさせていく。これにより、徐々に与えられるContext量が減っていき、難易度が高くなるようなカリキュラムとなる。

3.3節、式4あたりが本提案手法のIn-Context Reinforcement Learning (ICRL)と命名される気持ちな気がしており、モデルはもともとIn-Context Leainingの元、スキルを実施できるが、それを与えるコンテキストを徐々に減らしてパラメータの内部に学習させていく、これをRLによって実現する（＝ICRL)という気持ちなのかなと思われる。

[^1]: pixel-basedな潜在表現でレンダリングされたテキストに関する情報を扱えることが先行研究で示されており、画像としてエンコードした方がcontextを節約可能なのでこのような方法が採用されている。

ベースラインとなるSkillRLと比較して、個別のタスクレベルで見ると優劣は分かれるものの、ALFWorld [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 , 様々なQAベンチマーク(Search-QAと呼称) [Paper Note] Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning, Bowen Jin+, COLM'25, 2025.03 での全体としてのパフォーマンスは向上し、コンテキストが節約されることでコストを大幅に削減できているような結果となっている。

3.3節の(a), (b)の部分は読めていないがこちらも時間があるときに読みたい。Skill Budgetの調整に絡んでいそうではある。

[Paper Note] $\texttt{YC-Bench}$: Benchmarking AI Agents for Long-Term Planning and Consistent Execution, Muyu He+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #Planning #Evaluation #read-later #One-Line Notes #LongHorizon Issue Date: 2026-04-04 GPT Summary- LLMエージェントの戦略的一貫性の維持に関する課題を評価するため、YC-Benchを導入。シミュレートされたスタートアップを通じて、誤った意思決定の累積影響を調査。12モデルを比較した結果、Claude Opus 4.6が平均1.27百万ドルの資金で最高成績を収め、一貫して成功したモデルは3つのみ。特にスクラッチパッドの使用が成功に大きく寄与し、敵対的なクライアントの検出が主な失敗因として浮かび上がった。全体として、モデルの固有の故障モードが長期的なパフォーマンスにおける能力のギャップを明らかにした。YC-Benchは再現性と設定可能性を備えたオープンソースのベンチマークである。 Comment

pj page: https://collinear-ai.github.io/yc-bench/

元ポスト:

Loading…

スタートアップの経営を通じてAI Agentをlong horizonの計画、実行能力を評価するような枠組みらしい。

[Paper Note] CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation, Max Fu+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #Evaluation #Coding #SoftwareEngineering #read-later #Robotics #EmbodiedAI Issue Date: 2026-04-04 GPT Summary- Code-as-Policy（CaP）は、自律的なロボット制御における実行可能なコードの有効性を探求するためのフレームワークCaP-Xを提案します。中心となるCaP-Gymは、感知と制御を組み合わせてロボットを制御するインタラクティブ環境を提供します。CaP-Benchを利用して12モデルを評価した結果、手作りの抽象化が性能を向上させる一方、先入観の排除で性能が低下し、設計者の足場に依存していることが明らかになりました。このギャップは、推論時計算や複数ターンの相互作用を通じて緩和可能です。これにより、学習を要しないCaP-Agent0が活用され、シミュレーションや実機タスクで人間レベルの信頼性を回復させます。CaP-RLを導入することで強化学習が成功率を向上させ、シミュレーションと実機間の移行を円滑にすることを確認しました。CaP-Xは、具現化されたコーディングエージェントを推進するためのオープンアクセスプラットフォームを提供します。 Comment

元ポスト:

Loading…

[Paper Note] Think Anywhere in Code Generation, Xue Jiang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Coding #Reasoning #SoftwareEngineering #read-later #Reference Collection Issue Date: 2026-04-04 GPT Summary- LLMsの事前思考に依存したコード生成は制限があり、全体の複雑性を理解するには不十分である。これに対抗するために、Think-Anywhereという新しい推論機構を提案し、任意のトークン位置で推論を呼び出すことを可能にする。これにより、推論パターンの模倣と成果ベースのRL報酬を活用し、推論のタイミングを自律的に探索させる。広範な実験で、Think-Anywhereは最先端の性能を実現し、多様なLLMsにおいて一貫した一般化を示すことが確認された。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] PRBench: End-to-end Paper Reproduction in Physics Research, Shi Qiu+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #ScientificDiscovery #Reproducibility #Physics Issue Date: 2026-04-04 GPT Summary- 大規模言語モデルを用いたAIエージェントは、科学研究タスクを支援するが、実際の科学論文からの再現性に課題がある。PRBenchを導入し、物理学の専門家が選んだ30のタスクに基づき、エージェントが論文の方法論を理解し、アルゴリズムを実装する能力を評価。エージェントは指示と論文内容のみを使い、実行環境で動作。評価の結果、GPT-5.3-Codexが最も高いスコアを得るも、全エージェントの再現成功率はゼロで、誤実装やデバッグ不能の問題が確認された。PRBenchは自律的な科学研究の進展を評価するための厳格な基準を提供する。 Comment

元ポスト:

Loading…

[Paper Note] KAT-Coder-V2 Technical Report, Fengxiang Li+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #SoftwareEngineering #read-later Issue Date: 2026-04-04 GPT Summary- KAT-Coder-V2は、快手のKwaiKATチームが開発したエージェント指向のコーディングモデルで、5つの専門ドメインに分解し、それぞれを教師あり微調整と強化学習で独立学習した後、単一モデルに統合します。KwaiEnvを用いて数万の同時サンドボックス環境を支え、RL訓練をスケーリング。MCLAとTree Trainingにより計算の冗長性を排除し、最大6.2倍のスピードアップを達成。SWE-benchで79.6%、PinchBenchで88.7のスコアを記録し、複数のベンチマークで首位を獲得しました。モデルは公開されています。 Comment

元ポスト:

Loading…

Claude Opus 4.6に近い性能を持つagentic coding modelとのこと。

pj page: https://streamlake.com/product/kat-coder

[Paper Note] Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey, Wei-Chieh Huang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #read-later #memory Issue Date: 2026-04-04 GPT Summary- 人工知能の研究は、ベンチマークスコアから現実世界での評価にシフトしている。今後の課題は、長期・動的な環境でのエージェントの真の有用性の確保であり、記憶がその解決策として重要視されている。本調査では、エージェント記憶を記憶基盤、認知機構、記憶対象の三次元から検討し、記憶操作を学習ポリシーと関連付けて分析。記憶の有用性評価のためのベンチマークと指標も提案し、未解決の課題と今後の方向性を示す。 Comment

AI Agent + memory に関するサーベイ。とんでもない量だ。。。

github: https://github.com/AgentMemoryWorld/Awesome-Agent-Memory

元ポスト:

Loading…

以下の3つの軸で整理されているようである
- メモリの基盤 (Memory Substrate):
- internal: 重み、潜在表現、KVCache
- external: vector stores, knowledge graphs, text records
- 認知機構 (Cognitive Mechanism)
- メモリの対象 (Memory Subject)

2023--2025の218の文献をレビューしたとのこと。

open challengeとしては
- continual learning
- multi-human-agent memory organization
- memory infrastructure and efficiency
- life-long personalization and trustworhy memory
- multimodal grounding
- real-world evaluations

と題されている。

[Paper Note] Embarrassingly Simple Self-Distillation Improves Code Generation, Ruixiang Zhang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Coding #PostTraining #read-later #SelfDistillation #Author Thread-Post Issue Date: 2026-04-04 GPT Summary- 簡易自己蒸留（SSD）を用いて、LLMが独自の出力のみでコード生成の改善が可能であることを示す。特定の温度とトランケーション設定で出力をサンプリングし、その後教師付きファインチューニングを行うことで、Qwen3-30B-Instructのパフォーマンスを42.4%から55.3%に向上。4B・8B・30Bスケールのモデル間で一般化され、改善のメカニズムをLLMデコードの精度と探索の相互関係に関連づけて検討。SSDは、精度を高めつつ多様性を保持するアプローチとして、LLMのコード生成に寄与する可能性を示唆する。 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…

著者ポスト:

Loading…

[Paper Note] HippoCamp: Benchmarking Contextual Agents on Personal Computers, Zhe Yang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #Search #Dataset #Personalization #Evaluation #MultiModal #VisionLanguageModel #One-Line Notes #Environment Issue Date: 2026-04-04 GPT Summary- HippoCampは、エージェントのマルチモーダルファイル管理能力を評価する新しいベンチマーク。ユーザー中心の環境でエージェントを評価し、個々のユーザープロファイルをモデル化し、膨大な個人ファイルを検索。42.4 GBに及ぶ2,000件以上の実世界ファイルから581のQAペアを構築し、エージェントの検索や推論能力を評価。最先端のマルチモーダル大規模言語モデルは、ユーザープロファイリング精度が48.3%に留まり、個人ファイルシステムにおける検索や推論に苦戦。HippoCampは、現行エージェントの制約を浮き彫りにし、次世代AIアシスタント開発の基盤を提供。 Comment

pj page: https://hippocamp-ai.github.io/

元ポスト:

Loading…

「私の水曜日の予定はなんですか？」といったような、user-centricなタスクにおける、ユーザ個人のcontextを含むファイル検索やプロファイリング、reasoningを必要とする、よりuser-centricな情報を扱う必要があるベンチマークのようである。ユーザのプロファイルやpersonal情報が格納されたEnvironmentが提供されている。

environment: https://hippocamp-ai.github.io/hippocamp/

[Paper Note] Meta-Harness: End-to-End Optimization of Model Harnesses, Yoonho Lee+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #AgentHarness Issue Date: 2026-03-31 GPT Summary- 大規模言語モデル（LLM）の性能は、ハーネスと呼ばれる情報の保存・取得・提示を決定するコードに依存しているが、従来のハーネス設計は手作業が主で、最適化手法はフィードバックを圧縮してしまう。そこで、Meta-Harnessを提案。これはLLMアプリケーションのハーネスコードを探索する外部ループシステムで、エージェント的提案者を通じて過去の実行トレースを活用。Meta-Harnessは、オンラインテキスト分類で7.7ポイントの向上を示し、リトリーバルを用いた数学推論では200問の正確度を4.7ポイント改善。また、エージェント的コーディングでは手作業設計を超える成果を上げる。これにより、より豊かな過去の経験が自動化されたハーネス設計を実現可能であることが示された。 Comment

元ポスト:

Loading…

pj page: https://yoonholee.com/meta-harness/

Darwin Godel Machineと非常にコンセプトが似ているという指摘がある
- [Paper Note] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, ICLR'26, 2025.05

所見:

Loading…

解説:

Loading…

[Paper Note] AIRA_2: Overcoming Bottlenecks in AI Research Agents, Karen Hambardzumyan+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #AutoML #LongHorizon #Initial Impression Notes #Asynchronous Issue Date: 2026-03-30 GPT Summary- 既存のAI研究エージェントの課題に対処するため、AIRA$_2$を提案。非同期マルチGPUワーカープールによりスループットを向上し、信頼性の高い評価信号を提供するHidden Consistent Evaluationプロトコルを導入。また、動的に行動を変更できるReActエージェントを用いる。MLE-bench-30でAIRA$_2$はパーセンタイル順位71.8%を達成し、過去最高を更新。各要素の必要性を示し、評価ノイズによる「過剰適合」の誤解を明らかに。 Comment

元ポスト:

Loading…

AutoMLベンチマーク（MLE-Bench-30）においてSoTAな手法らしい。AutoMLの現状を概観するのに良さそう。
- MLE-Bench, OpenAI, 2024.10

72h実行して、36.7%程度のコンペティションでGold medalを獲得している。よくよく表を見ると、FM-Agent 2.0の方が24hで全体的に高いメダル獲得率のように見えたのだが、そもそもMARS+, MARS, FM-Agent 2.0, そしてMLEvolveはcon-current workとのこと。2024年10月にMLE-Benchが発表され、[Paper Note] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, Jun Shern Chan+, ICLR'25, 2024.10 を見るとo1-previewでgold medalは10%程度だったが、そこから約1年半でgold medalの比率は+26%程度まで向上しているということになる。
- [Paper Note] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, Jun Shern Chan+, ICLR'25, 2024.10

ベンチマークが公開されたら早々にサチりそうな気がしていたが、個人的に思っていたよりもスコアの伸びが遅いという感想。

[Paper Note] Agentic Uncertainty Quantification, Jiaxin Zhang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #Hallucination #Ambiguity Issue Date: 2026-03-30 GPT Summary- AIエージェントは長期的な推論に優れた能力を持つが、「幻覚の螺旋」により信頼性が損なわれる。既存の不確実性の定量化手法は受動的で、自己反省は無目的な修正に苦しむ。これを解決するために、言語化された不確実性を双方向の制御信号に変換する二過程型エージェント式UQフレームワークを提案。System 1は不確実性を伝達し盲目的な意思決定を防ぎ、System 2は合理的な手掛かりを使って必要時に推論を行う。実験によって、訓練不要で高い性能を示し、信頼できるエージェントの実現に向けた一歩としての可能性を示唆している。 Comment

元ポスト:

Loading…

[Paper Note] Memento-Skills: Let Agents Design Agents, Huichi Zhou+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ContinualLearning Issue Date: 2026-03-30 GPT Summary- Memento-Skillsは、継続的に学習可能なLLMエージェントシステムで、タスク特化型エージェントを自律的に構築・改善する。メモリベースの強化学習フレームワークを用い、再利用可能なスキルを永続的な記憶として保存。基本的なスキルから始まり、読み書き反省学習によって継続的に改善。エージェントは関連スキルを選択・更新し、自らの能力を向上させる。実験では、General AI Assistantsベンチマークで26.2%、Humanity's Last Examで116.2%の改善を示した。コードは公開中。 Comment

元ポスト:

Loading…

[Paper Note] MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild, Peng Xia+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #AgentSkills #Initial Impression Notes #Test Time Training (TTT) Issue Date: 2026-03-26 GPT Summary- MetaClawは、LLMエージェントが変化するニーズに対応するための継続的メタ学習フレームワークである。失敗軌跡を解析して即座にスキルを合成し、ダウンタイムをゼロにするスキル駆動の適応や、機会主義的ポリシー最適化を通じて、効果的に能力を更新する。これにより、精度を最大32%向上させ、全体のパイプラインの精度も21.4%から40.6%に増加させることが示された。 Comment

元ポスト:

Loading…

- [Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03

と一見すると似たような研究に見えるが、

[Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03 の肝は「trajectory中のprocessにおいて活用可能なシグナルがあるから、それをもっと活用しよう」という気持ちで、
本研究は「失敗したtrajectoryに適用するためにSkillを合成し、ユーザが利用しないIdle Timeの間にLoRA + RLでポリシーの重みも更新して賢くしよう」という気持ちであり、目的が異なるように見える。

- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02

においては、Skillをtaskに関する手続的な知識に基づいてスキルを自己生成しても性能向上せず、むしろ悪化させるような結果が出ており、不用意にSkillを合成すると性能が劣化するという結果が出ている。
本研究は失敗したtrajectoryに対して適応するためのSkill合成である点と、LoRAによってポリシー自体も賢くなるのであれば前提が変わるので話は変わってくるのかな、という印象。

[Paper Note] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning, Shengyuan Ding+, CVPR'26, 2025.12

Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiModal #CVPR #PostTraining #VisionLanguageModel #RewardModel #GenerativeVerifier #ToolUse Issue Date: 2026-03-25 GPT Summary- ARM-Thinkerは、視覚と言語の報酬モデルを向上させるためのエージェント型システムであり、外部ツールを自律的に活用して結果を検証可能にする。これにより、幻覚や視覚的グラウンディングの弱さを克服し、複数ページの証拠を比較して推論を支持する能力を持つ。多段階強化学習によって訓練され、ツール呼び出しの意思決定と判断精度を最適化。新たに導入したARMBench-VLで評価した結果、報酬モデリングで平均+16.2%、ツール使用タスクで+9.6%の改善を達成。エージェント的なアプローチが精度と解釈性の向上に寄与することを示している。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

[Paper Note] PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost, Junkeun Yi+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2026-03-25 GPT Summary- 計算効率とOOD能力のトレードオフを解消するために、PivotRLという新しいフレームワークを提案。局所的なオンポリシーロールアウトで高い分散を持つ情報量豊かな中間ターンを選別し、機能的に同等なアクションに報酬を与えることでポリシー確率の維持を促進。PivotRLは4つのエージェント系ドメインでインドメイン精度を平均4.17%向上、OOD精度を10.04%高め、少ないロールアウトターンでE2E RLと同等の精度を実現した。NVIDIAのNemotron-3-Super-120B-A12Bに採用され、実運用規模のエージェント後訓練の主力として機能中。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Effective Strategies for Asynchronous Software Engineering Agents, Jiayi Geng+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Coding #Architecture #SoftwareEngineering #LongHorizon #Asynchronous Issue Date: 2026-03-25 GPT Summary- AIエージェントは孤立したSWEタスクでは高い能力を示すが、依存するサブタスクを含む長期的なタスクには課題が残る。非同期のマルチエージェント協調が期待されるが、同時編集や依存関係の同期、進捗の統合には困難が伴う。これに対処するため、CAIDという新たな協調パラダイムを導入。これにより中央管理者を介したタスク計画と、分離された作業スペースでの同時実行が実現され、進捗の統合が可能になる。実験的にCAIDは、PaperBenchで26.7%、Commit0で14.3%の精度向上を示し、マルチエージェント協調の調整機構としてブランチとマージを明らかにした。 Comment

元ポスト:

Loading…

[Paper Note] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web, Tanmay Gupta+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #MultiModal #OpenWeight #OpenSource #ComputerUse #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #GUI Issue Date: 2026-03-24 GPT Summary- MolmoWebは、ウェブエージェントをオープンな環境で構築するために、(1) 大規模な混合データセットMolmoWebMixと、(2) 完全オープンなマルチモーダルエージェントのMolmoWebを提案。MolmoWebMixは、10万超の合成タスクと3万件以上の人間デモを統合し、エージェントは視覚言語アクションポリシーを用いて次のブラウザ操作を予測。MolmoWebエージェントは同規模の他のモデルを上回る性能を示し、再現性とオープンな研究を促進するために関連リソースを公開。 Comment

元ポスト:

Loading…

github: https://github.com/allenai/MolmoWeb

学習、評価ハーネス、アノテーションツール、合成データパイプライン、デモのclient sideのコードがリリース

Molmo2をベースにしたオープンソースのBrowser Useエージェント。スクリーンショットを通じて次のアクション（クリック、文字入力、スクロール）を予測し実行する。

従来のBrowser Useエージェントの多くは非公開データを用いている中、MolmoWebMixと呼ばれる大規模なデータセットを公開。合成データ（タスクに成功したsingleエージェントのtrajectory, タスクをサブタスクに分解して実行するタイプのmulti-agent pipeline, 数百のwebsiteのリンク構造を体系的に探索して構築されたナビゲーションの経路等）と人間に寄る高品質なアノテーション（36k, 1100タスク, 623k件の個別のサブタスクのデモンストレーションで、過去最大規模）の２種類で構成されるとのこと。
また、BroserのGUIを認識するための学習データも含まれる。これはGUIのgrounding taskと、webページの内容を読み取りながら推論を実施するスクリーンショットがgivenなQAタスクのデータとｓて構成され、400程度のサイトから収集した、2.2MのQAペアによって編成される。

4種類のベンチマークで評価した結果、プロプライエタリモデルには一部及ばないものもあるが、同等規模なOpenWeightモデルをoutperform。また、WebVoyager, Online-Mind2Webデータでみると、Pass@4のようなtest-time scaling手法を用いると、プロプライエタリも出るを上回る。
ただ注意点としては、比較しているOpenWeightモデルが少し古いように見えるが、何か理由があるのだろうか。
Holoであれば、既にHolo3がリリースされており
- Holo3: Breaking the Computer Use Frontier, H Company, 2026.03

GLMであれば、GLM-4.6Vが存在する。
- GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilies, Zhipu AI, 2025.09

（UI-TARS-2 [Paper Note] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning, Haoming Wang+, arXiv'25 はおそらくプロプライエタリなので対象外。あと使えるのかも不明。デモは公開されていた気がするが。）

いずれにせよHoloやUI-TARSなどはデータが公開されていなかったと思うので、全てを公開することによるcontributionは非常に大きいと思われる。

[Paper Note] LMEB: Long-horizon Memory Embedding Benchmark, Xinping Zhao+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #memory Issue Date: 2026-03-17 GPT Summary- メモリ埋め込みの重要性を踏まえ、長期的なメモリ検索能力を評価するための長期視点のメモリ埋め込みベンチマーク（LMEB）を提案。22のデータセットと193のゼロショットタスクを包含し、複数のメモリタイプに基づく評価を行う。結果は、LMEBの難易度適切性やモデルのパフォーマンスに関する新たな洞察を示し、長期的メモリ検索における埋め込みモデルの進展を促進することを目指す。詳しくは https://github.com/KaLM-Embedding/LMEB を参照。 Comment

元ポスト:

Loading…

[Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PRM #KeyPoint Notes #Reference Collection #Author Thread-Post Issue Date: 2026-03-14 GPT Summary- OpenClaw-RLは、エージェントの相互作用から生成される次状態信号を用いたオンライン学習フレームワークである。各エージェントのアクションに対するユーザーの反応やツールの出力を利用し、一つのポリシーで複数のトレーニング問題を同時に学習する。次状態信号は評価信号と指示信号を含み、前者はアクションの成功度を示し、後者は改善点を指摘する。非同期設計により、モデルはリアルタイムでリクエストに応じ、ポリシーを更新する。個人用エージェントや一般エージェントに適用することで、ユーザーのフィードバックを活用し、スケーラブルな強化学習を実現する。 Comment

元ポスト:

Loading…

解説:

Loading…

日本語解説: https://tech.layerx.co.jp/entry/openclawrl-agenticrl

テクニカルレポートを見ると情報量が非常に多くて圧倒されてしまうが、著者ポストを鑑みるに本研究の肝は下記である。

既存のAgentic RLは、Agentがaction a_tを実施した後に環境の状態がs_t+1に変化するが、それをcontextとして活用し次のactionを生成している。しかし、ただcontextとして活用するよりももっと有用な使い方があるのではないか、という主張をしているように見え、具体的には以下の2つの無駄が生じているという指摘で
- 次のstateは前回のアクションの暗黙的な評価を与えており、これを捨ててしまっている。たとえば、ユーザは満足いっていないことをqueryするかもしれないし、テストが通ったら成功、エラーが出たら失敗という評価に関するシグナルが潜んでいる。これは主に数学ドメインで利用されてきたProcess Reward Modelによるプロセスに関するRewardとは対照的に、verifiableなドメインを超えて自然なインタラクションの中で生じるシグナルから評価できる。
- 上記は評価に関するシグナルだが、もう一つのシグナルとして方向性に関するシグナルが得られる。たとえば、「あなたは最初にファイルを確認すべきだ」というqueryがs_t+1として得られたとする。これは、単にa_tが失敗だっただけでなく、「どのトークンが、どのように」誤っていたかに関する具体的なフィードバックとみなせる。たとえば、errorに関するtraceは具体的などこを修正すれば良いかのシグナルである。現在のRLVRの枠組みはこれらのシグナルを（最終的に得られる）sparseな単一のスカラー値に落としてしまっており、これら精緻な方向性に関するシグナルを完全に捨て去ってしまっている。

前者についてはBinary RL[^1]によってシグナルを拾え、

後者についてはs_t+1からtextualなhintを抽出しteacher contextとして活用することで、トークン単位でのadvantageを計算できる[^2]。

そしてこれら両方を組み合わせることで、より良い結果を得ることができる、といったことが著者ポストに書かれている。

元論文自体は部分的にしか読めていないのだが、論文のメッセージとしては、s_t+1の情報にはまだ活用できるシグナルがあるのにそれが見過ごされていて、現在のRLVRの枠組みではスカラー報酬に埋もれてしまっているという課題意識が肝だと感じた。

また、手法的な観点で言うと、日本語解説と、テクニカルレポート4.1.2節に書かれている通り、リアルタイムなユーザとの対話を前提てして考えた時に、ロールアウトは1つしか現実的に存在しえないため（複数ロールアウトに対してユーザからのフィードバックs_t+1を得ることは実用的な設定では非現実的）GRPOが適用できない、という点はなるほどなぁ、と感じた。

[^1]: a_t, s_t+1が与えられた時に{0, 1, -1}を返す何らかのProcess Reward Modelを定義し、m回独立した施行を実施しmajority votingをすることでreliableなa_tに対するRewardを得る（4.1.1節）。

[^2]: s_t+1から抽出可能なhintを追加のcontextとして与えたポリシーを教師、hintなしのポリシーを生徒とし、教師と生徒のa_tに対するトークンの尤度の差分をとることでtoken単位のadvantageを得る。すなわち、hintが与えられたときにa_tで尤度が低くなるトークンがあれば、そのトークンにはペナルティが課されることになる（4.2.2 Step4)。

[Paper Note] Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems, Zongqian Li+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #Coding #SoftwareEngineering #PostTraining #DataFiltering #Initial Impression Notes Issue Date: 2026-03-12 GPT Summary- 高品質なコード生成モデルの訓練には高品質なデータセットが必要だが、既存のデータは様々な問題を抱えている。本研究では、系統的なデータ処理フレームワークを導入し、自動難易度フィルタリングを用いて難易度の高い問題を保持しつつ簡単な問題を排除。得られたMicroCoderデータセットは、多様な競技プログラミング問題を含み、性能向上を達成。評価によれば、三倍の性能向上を示し、難易度を意識したデータ選定がモデルの性能向上に効果的であることが明らかになった。 Comment

元ポスト:

Loading…

コーディングドメインにおいて、難易度の高いコーディング問題を収集（単純な問題をフィルタリング）することで、RLにおいて高い学習効率が得られる、という話に見える

[Paper Note] AutoHarness: improving LLM agents by automatically synthesizing a code harness, Xinghua Lou+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Initial Impression Notes #AgentHarness Issue Date: 2026-03-08 GPT Summary- 言語モデルは、エージェントとして利用する際に最適でない行動をとることがあります。特に、Gemini-2.5-FlashはKaggle GameArenaのチェス競技で78%の敗北が違法手に起因しています。そこで、本研究では、ゲーム環境のフィードバックを用いて自動的に“ハーネス”を合成する手法を提案します。この手法は、145のTextArenaゲームにおいて全ての違法手を防ぎ、小型モデルのGemini-2.5-Flashがより大きなモデルを上回る性能を示します。また、Gemini-2.5-Flashは方針をコードとして生成し、意思決定時にLLMを必要としなくなります。得られたコードは、16の1人用ゲームでより高い平均報酬を得ており、カスタムのコード・ハーネスを用いることで、より大きなモデルを上回る性能を示します。 Comment

元ポスト:

Loading…

あのMurphy本の著者であるMurphy氏が著者にいる👀

[Paper Note] Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations, Dongming Jiang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Survey #Analysis #NLP #LanguageModel #read-later #Selected Papers/Blogs #memory #Initial Impression Notes Issue Date: 2026-03-07 GPT Summary- エージェント記憶システムは、LLMエージェントが長い相互作用を維持し、長期推論を支援するが、経験的基盤が脆弱である。既存のベンチマークは不十分で、評価指標が実用性に合致せず、性能差が大きく、コストも見落とされがちである。本調査では、エージェント記憶を構造的に分析し、4つの記憶構造から成るMAGシステムを提案。主要な問題点として、ベンチマークの飽和、評価指標の妥当性、精度のバックボーン依存、記憶維持によるオーバーヘッドを挙げ、信頼性の高い評価とスケーラブルなシステム設計の方向性を示す。 Comment

元ポスト:

Loading…

AI Agentの研究に関してtaxonomyが定義されており、研究分野全体の進展を外観するのに良さそう。

[Paper Note] Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery, Michael P. Brenner+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #ScientificDiscovery #TreeSearch #Physics #Initial Impression Notes Issue Date: 2026-03-07 GPT Summary- 本論文では、AIが理論物理学の未解決問題を解決することで数学的発見を加速できることを示す。Gemini Deep Thinkを用いたニューロ-シンボリックシステムが、宇宙ひもによる重力放射のパワースペクトルについて新しい解析解を導出。エージェントはコア積分の評価を通じて、従来の部分的な漸近解を改善。探索制約とフィードバックループを詳細に説明し、最も効果的な解析法としてGegenbauer多項式を特定。これにより、漸近解が数値結果と整合し、量子場理論とも関連づけられることを示した。 Comment

元ポスト:

Loading…

Gemini Deep Thinkが今度は理論物理に関する未解決問題を解決したらしい？

[Paper Note] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration, Jialong Chen+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #Coding #SoftwareEngineering #One-Line Notes #CI Issue Date: 2026-03-07 GPT Summary- 静的なバグ修正だけでなく、複雑な要求変更に対応するため、継続的インテグレーションに基づく新しいベンチマークSWE-CIを提案。これにより、コード生成の評価が短期的な正確性から長期的な保守性にシフトし、100のタスクを通じてエージェントの分析およびコーディング能力の維持を評価する。SWE-CIは実世界の進化履歴に基づいており、コード品質の長期的な維持についての洞察を提供。 Comment

元ポスト:

Loading…

SWE Agentの現在の主要な評価パラダイムである個々の機能のバグフィクスなどの短期的な評価から、より長期的なメンテナンスなどのタスクで評価をする

[Paper Note] A Rubric-Supervised Critic from Sparse Real-World Outcomes, Xingyao Wang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ReinforcementLearning #Coding #SoftwareEngineering #Selected Papers/Blogs #Verification #RewardModel #One-Line Notes #Critic #Rubric-based #Author Thread-Post Issue Date: 2026-03-06 GPT Summary- コードエージェントの評価は通常、ユニットテストの成功を基にしているが、実際の環境では成功信号が遅延し、ノイズが多い。本研究では、疎でノイズの多い相互作用データを用いてクリティックモデルを学習する方法を提案し、これをRLベースの報酬モデルとして利用する。具体的には、エージェントの行動特徴を含むクリティック・ルーブリックを導入し、半教師付き目的関数で人間のフィードバックと共に予測する。実験により、このアプローチが SWe-bench におけるリランキングを改善し、試行回数を83%減少させながら成果を向上させることを示した。 Comment

元ポスト:

Loading…

AI Agentによる実装は安価になったが、今度は（人間による）verificationがボトルネックなので、Agentのtrajectoryからcritiqueを実施するモデルをRubric-basedに学習しReward Modelとして活用できるようにした、という話に見える。これによりAgentの進捗をリアルタイムでvibe checkすることができるとのこと。

著者ポスト:

Loading…

[Paper Note] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale, Ibragim Badertdinov+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #Coding #SoftwareEngineering #PostTraining #read-later #Selected Papers/Blogs #Live #One-Line Notes #Environment Issue Date: 2026-03-05 GPT Summary- SWEエージェントの強化学習を支えるため、実世界のソフトウェア工学タスクを自動収集し、再現可能な環境を構築するSWE-rebench V2を提案。20言語・3,600超のリポジトリから32,000以上のタスクを集め、厳選したコンテンツで信頼性のあるトレーニングデータを提供。また、タスク生成に必要なメタデータも加え、エラー要因を明示。データセットと関連リソースを公開し、多様な言語での大規模なSWEエージェントのトレーニングを支援。 Comment

元ポスト:

Loading…

environment: https://huggingface.co/datasets/nebius/SWE-rebench-V2?row=5

関連:
- [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, NeurIPS'25, 2025.05

以前の研究ではpython特化だったが、今回はlanguage-agnosticな環境になっている。

合成データではなく、実際のissue-resolutionのヒストリに基づいたデータセットであることに注意

[Paper Note] AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization, Mert Cemri+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ScientificDiscovery Issue Date: 2026-03-04 GPT Summary- AdaEvolveは、LLMを駆使して自動プログラム生成を階層的適応最適化のフレームワークとして再定式化。探索強度の局所適応、資源予算のグローバル適応、停滞時のメタガイダンスを統合。185のオープンエンドな最適化問題において、従来のベースラインを上回る性能を示した。 Comment

pj page: https://skydiscover-ai.github.io/

元ポスト:

Loading…

[Paper Note] How Well Does Agent Development Reflect Real-World Work?, Zora Zhiruo Wang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #KeyPoint Notes #Author Thread-Post Issue Date: 2026-03-04 GPT Summary- AIエージェントの開発は、労働市場のベンチマーク上で進められているが、その代表性は不明である。本研究では、43のベンチマークと72,342のタスクを分析し、エージェント開発と米国労働市場の職業との整合性を測定。プログラミング重視の開発と人間労働の価値の乖離を指摘し、エージェントの自律性を評価することで実用的な指針を提供。最後に、社会的に重要な労働を捉えるベンチマーク設計のための3つの原則を提案。 Comment

元ポスト:

Loading…

AI Agentのベンチマークは実際の人間の労働に本当に紐づいたタスクで評価されているのか？という疑問に答えてくれる研究のようで、実際のAI Agentのベンチマークと人間の業務、それらのcapitalをマッピングしたところ、現在のAI Agentのベンチマークは過剰に数学とコーディングドメインに偏っており、実態としての人間の労働や、それらの中でcapitalが集中しているドメインに対するカバレッジが大きく不足していることがわかった。

ドメインごとに見ると、デジタル化がされていて高付加価値のドメインのいくつか（マネジメントや法務）のベンチマークは少なく、スキルをベースに見るとベンチマークは情報取得やエンジニアリングといった狭いスコープばかりに焦点が当たっていて（これらの人間の労働に占める割合は<7%にすぎない）、多くの他のスキルが無視されている状況とのこと。

また、エージェントの自律性を細分された尺度で評価するために、どの程度のレベルの複雑さのタスクであればreliableにagentがこなせるかという観点を導入し、タスクの複雑性に関するスケールを導入し比較を可能にした、といった話が元ポストに書かれている。

現在提供されているベンチマークにおいて、おそらくタスク全体のうちの個別のサブタスクごとに複雑度をラベル付けして、複雑度を軸にサブタスクの成功/失敗をtrajectoryから分析することで、タスクの複雑度を軸に成功率を分析したグラフを見ると、タスクの複雑度に対して基本的にはどのドメイン、スキル、エージェントフレームワーク、バックボーンモデルであれ複雑度な上がれば上がるほど成功率は減少していく傾向にあり、成功率は最終的に20%--0%付近まで低下する。

最終的に、エージェントの評価ベンチマークにおいては、実際の労働に対するカバレッジ、現実的であること（＝実際のドメインや必要となるスキルを捉えており、実タスク全体を捉えたようなものが必要でFigure4にベンチマークごとのドメインとスキルのカバレッジが可視化されている）、より粒度の細かい評価が必要（タスク全体の成功/失敗でのみ評価すると、タスクのどこまでできていたのか？という重要なシグナルが欠落する）であることが議論されている。

[Paper Note] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation, Weinan Dai+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #SyntheticData #Coding #GPUKernel #Rubric-based #Environment Issue Date: 2026-03-04 GPT Summary- CUDAカーネル最適化は深層学習の核だが、専門知識が求められる。大規模言語モデル（LLMs）は従来のCUDAコード生成において限界があり、内部最適化能力が向上しない。私たちはCUDA Agentを提案し、データ合成、信頼性の高い報酬信号の提供、安定した強化学習を通じてCUDAカーネルの専門知識を育成。KernelBenchで最先端の結果を達成し、torch.compileよりも各レベルで大幅に高速化。最強商用モデルを約40%上回る性能を示す。 Comment

pj page: https://cuda-agent.github.io/

元ポスト:

Loading…

解説:

Loading…

[Paper Note] On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents, Jai Lal Lulla+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Coding #SoftwareEngineering #Initial Impression Notes #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AIコーディング・エージェント（CodexやClaude Codeなど）がソフトウェア・リポジトリに与える影響を調査。AGENTS.mdファイルの有無で、GitHubプルリクエストにおけるエージェントの実行時間とトークン消費が異なることを示し、AGENTS.mdの存在が実行時間を28.64%、トークン消費を16.58%削減する一方、タスク完了挙動は同等であることが分かった。これに基づき、AIコーディング・エージェントの設定やデプロイに関する実務的な含意を議論し、リポジトリレベルの指示の重要性を明らかにする。 Comment

関連:
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02

こちらの研究ではどちらかというとAGENTS.mdによってinference costが増大するようなことが示されているが、具体的にAGENTS.mdの内容としてどのような違いがあるだろうか？

元ポスト:

Loading…

[Paper Note] Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper, Atsuyuki Miyai+, TMLR'26, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #ScientificDiscovery #TMLR Issue Date: 2026-03-03 GPT Summary- Jr. AI Scientistは、初心者の研究者のワークフローを模倣する自律型AIシステムで、基準論文をもとに限界分析、仮説提案、実験を通じて新しい研究論文を生成する。従来のシステムと異なり、明確なワークフローに従い、複雑な実装を扱う。本研究では、NeurIPS、IJCV、ICLRの研究成果を基に新規手法を提案し、生成された論文が既存の自動システムよりも高い査読スコアを得たことを示す。とはいえ、重要な限界やリスクも指摘されており、人間の専門知識が依然として必要な領域を明らかにする洞察が得られた。 Comment

openreview: https://openreview.net/forum?id=OeV062d8Sw

元ポスト:

Loading…

[Paper Note] AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications, Yujie Zhao+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #memory #Initial Impression Notes #Author Thread-Post Issue Date: 2026-03-01 GPT Summary- LLMを用いた自律エージェントの記憶において、実務的応用と評価基準の間にギャップが存在。これを解消するために、AMA-Benchを提案し、実世界のエージェント軌跡とQAを組み合わせて評価。多くの既存システムが因果性を欠き、類似性ベース検索に制約されている中、因果性グラフとツールを用いたAMA-Agentが性能を向上。AMA-AgentはAMA-Benchで57.22%の正解率を達成し、最強記憶システムのベースラインを11.16%上回る。 Comment

元ポスト:

Loading…

実際のAgenticなタスクのユースケースに沿ったmemoryの評価方法を提案している研究のようで、非常に重要な研究に見える。実際はチャットベースのやり取りではなく、エージェントと環境が相互作用しながら生成されるtrajectoryで構成され、指示はagentによって生成された客観的な目的を含んでおり、trajectoryには多くのnoisyな結果やsymbolが含まれる。また、agentが現在のstateから環境に作用した結果が返ってくるというチャットベースの言語的なフロートは異なり、stateに基づいた因果関係が存在するという差がある。

ベンチマークの結果ではGPT-5.2が優れていそうに見えるが、GPTの場合は最新のGPT-5.2で評価されているのに、Claudeに関してはClaude Haiku 3.5で評価されているのは気になる。Claude Opus 4.6やGemini-3で評価したらどの程度の性能になるのだろうか。

著者ポスト:

Loading…

[Paper Note] REMem: Reasoning with Episodic Memory in Language Agent, Yiheng Shu+, ICLR'26, 2026.02

Paper/Blog Link My Issue
#GraphBased #NLP #LanguageModel #ICLR #memory #One-Line Notes #Grounding Issue Date: 2026-03-01 GPT Summary- REMemは、エピソード記憶を構築し推論するための2段階フレームワークを提案する。オフラインでは、経験を時間情報を含む要旨と事実を結びつけたハイブリッド記憶グラフに変換。オンラインでは、エージェント型リトリーバを用いて記憶グラフ上での反復検索を可能にする。包括的な評価により、REMemは最先端システムを大幅に上回り、エピソード回想と推論タスクでそれぞれ3.4%、13.4%の改善を示す。回答不能な質問に対する拒否行動も堅牢であることが確認された。 Comment

元ポスト:

Loading…

単に知識や事実情報を蓄積するのではなく、過去のイベントに関するsituationalな情報（when,where,who,what)でgroundingをしながら、複数のイベント、タイムラインを跨いでreasoningができるようなepisodic memoryの提案。人間は単に意味情報から記憶を呼び起こすだけでなく、過去のイベントを想起して条件付けした上で時系列になぞって記憶を想起できる能力があることに起因する。

[Paper Note] Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents, Haiyang Xu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #ComputerUse #GUI Issue Date: 2026-02-28 GPT Summary- GUI-Owl-1.5は、指示型および思考型のGUIエージェントモデルで、幅広いプラットフォームをサポート。複数のサイズで提供され、20のGUIベンチマークで最先端の成果を達成。重要な革新には、ハイブリッドデータパイプライン、推論能力の統一的強化、マルチプラットフォーム環境の新アルゴリズムMRPOが含まれる。モデルはオープンソースで、オンラインデモが提供されている。 Comment

pj page: https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3.5

[Paper Note] Interleaved Head Attention, Sai Surya Duvvuri+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Attention #LongSequence #Architecture #One-Line Notes #Reference Collection #LongHorizon #Author Thread-Post Issue Date: 2026-02-28 GPT Summary- Interleaved Head Attention（IHA）を提案し、マルチヘッド・アテンションの線形スケーリングの制約を解消。IHAでは、各ヘッドにP個の疑似ヘッドを構築し、ヘッド間のクロス混合を可能にすることで、複数のアテンションパターンを生成。理論的には、合成的Polynomialタスクに対し、IHAはMHAよりも効率的で、実世界のベンチマークでも性能向上を示した。特に、GSM8KおよびMATH-500の問題で改善を達成。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

各headのqueryに対してlinear変換をかけてP個の疑似ヘッドを作成し、それらをinterleavingする形で整列させてK, Vを適用する、という感じらしい。多段階の推論や合成が必要な複雑なタスクにおいてheadの表現力が増し、必要なhead数が小さくなる反面、計算量が増える。疑似ヘッドはP個のトークンによって構成されるとみなせるので、FlashAttentionなどの従来の実装をそのまま適用できる。

[Paper Note] Aletheia tackles FirstProof autonomously, Tony Feng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Mathematics #ScientificDiscovery #Proofs Issue Date: 2026-02-28 GPT Summary- 数理研究エージェントAletheiaは、Gemini 3 Deep Thinkを活用し、FirstProofチャレンジにおいて10問中6問を自動解決。問題8は専門家の合意が得られなかった。実験の詳細と評価、解釈についても明示し、生データは指定のリンクで入手可能。 Comment

元ポスト:

Loading…

First Proof:
- [Paper Note] First Proof, Mohammed Abouzaid+, arXiv'26, 2026.02

[Paper Note] Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use, Ruocheng Guo+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Coding #SoftwareEngineering #PostTraining #CurriculumLearning #ToolUse Issue Date: 2026-02-28 GPT Summary- ツール・インターフェースの質がLLMベースのエージェントの性能に影響を与えることに着目し、Trace-Free+というカリキュラム学習フレームワークを提案。これにより、トレースのない環境で再利用可能なインターフェース使用パターンを習得を促進。構造化ワークフローに基づくデータセットを構築し、実験では未知のツールに対する改善とクロスドメイン一般化が確認された。最終的に、ツール・インターフェースの最適化がエージェントのファインチューニングに有効であることを示した。 Comment

元ポスト:

Loading…

[Paper Note] On Data Engineering for Scaling LLM Terminal Capabilities, Renjie Pi+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #Coding #OpenSource #SoftwareEngineering #Initial Impression Notes #Environment #Terminal Issue Date: 2026-02-28 GPT Summary- ターミナルエージェントのトレーニングデータ戦略に関するギャップを埋めるため、(1) 軽量な合成タスク生成パイプラインTerminal-Task-Genを提供し、(2) データと訓練戦略を総合的に分析。これにより、Nemotron-Terminalファミリーを訓練し、Terminal-Bench 2.0で性能を大幅に改善。ほぼすべての合成データセットをオープンソース化し、研究の加速を図る。 Comment

元ポスト:

Loading…

terminalエージェントのための合成データを作成する環境と実際に作成されたSFT用のデータセットの公開をしているようである。

[Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #Initial Impression Notes #AGENTS.md Issue Date: 2026-02-27 GPT Summary- コーディングエージェントのタスク完遂性能を評価するため、LLMが生成したコンテキストファイルと開発者提供のファイルを用いた2つの設定を検討。結果、コンテキストファイルは成功率を低下させ、推論コストを増加させる傾向が見られた。両者はタスクの探求を促進するが、不要な要件がタスクを難化させるため、最小限の要件のみを記述することが推奨される。 Comment

元ポスト:

Loading…

（現時点では）LLMによって自動生成されたコンテキストファイルは性能を劣化させ、inference costを増大させ、人間が作成したコンテキストファイルは性能を向上させる。コンテキストファイルによってoverviewを提供することを推奨しているものがあるが、性能向上には寄与しない。コンテキストファイルに従うことはより多くのthinkingを誘発し、結果的にタスクを難しくする。最小限のrequirementsのみを記述したものを使うことを推奨する、といった内容らしい？

[Paper Note] Test-Time Training with KV Binding Is Secretly Linear Attention, Junchen Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #memory #Test Time Training (TTT) Issue Date: 2026-02-26 GPT Summary- TTTを再定義し、記憶化ではなく学習済み線形アテンションとしての挙動を示す。これにより、アーキテクチャの単純化や効率向上が可能となり、多様なTTTバリアントを体系的に線形アテンションに還元できることが明らかに。 Comment

元ポスト:

Loading…

pj page: https://research.nvidia.com/labs/sil/projects/tttla/

[Paper Note] Analyzing and Improving Chain-of-Thought Monitorability Through Information Theory, Usman Anwar+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Reasoning #Safety #Monitorability Issue Date: 2026-02-24 GPT Summary- CoTモニターは、推論の痕跡を分析し、LLMベースのシステムで出力の興味属性を検出する手法です。本稿では、CoTと出力間の相互情報量がモニタビリティの必要条件であることを示し、性能を損なう二つの誤差源を特定します。情報ギャップは抽出可能な情報量を、誘発誤差は監視関数の近似度を測ります。訓練目的を最適化してCoTモニタビリティを向上させる二つの補完的アプローチを提案：オラクルベース手法と条件付き相互情報量の最大化。これにより、モニターの精度向上とリワードハッキングの緩和を実証します。 Comment

元ポスト:

Loading…

[Paper Note] MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks, Zexue He+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #memory Issue Date: 2026-02-23 GPT Summary- MemoryArenaは、エージェントの記憶と行動を密接に結びつけて評価する新しいベンチマークを提供します。従来の評価は記憶と行動を分離していたが、現実の設定ではこれらは相互依存しています。MemoryArenaは、多セッションのループ内でエージェントが記憶を獲得し、それを用いてタスクを解決する様子を評価します。このベンチマークは、相互依存するサブタスクを含み、ウェブナビゲーションや情報探索などの評価をサポートします。さらに、長文脈記憶ベンチマークで高い性能を示すエージェントが、我々の設定ではうまく機能しないことを示し、現行の評価方法にギャップがあることを明らかにしています。 Comment

元ポスト:

Loading…

[Paper Note] AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation, Siyu Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Orchestration Issue Date: 2026-02-23 GPT Summary- LLM駆動のマルチエージェントシステムを用いて、コード生成タスクのための動的なトポロジーを実現。AgentConductorは、エージェントの役割と難易度に応じて最適な通信グラフを生成し、冗長性を減少。実験結果では、競技レベルのデータセットで最先端の精度を達成し、従来の方法を大幅に上回る成果を示した。 Comment

元ポスト:

Loading…

[Paper Note] Learning Personalized Agents from Human Feedback, Kaiqu Liang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Personalization #memory #One-Line Notes Issue Date: 2026-02-23 GPT Summary- PAHFは、個ユーザーの嗜好をリアルタイムで学習し続けるためのフレームワークで、三段階のループを実装。具体的には、事前アクションの明確化、嗜好に基づく行動根拠の提供、嗜好変化時のメモリ更新を行う。新たなベンチマークを用いて、エージェントがゼロから嗜好を学び変化に適応する能力を評価し、明示的メモリと二つのフィードバックチャネルの統合が学習速度やパーソナライゼーション誤差の改善に寄与することを実証。 Comment

元ポスト:

Loading…

ユーザ専用のmemoryを用意しmemory上にユーザのpreferenceを蓄積し更新することによってpersonalizationを実施する。memoryへの更新はcontextやテキストによるフィードバックに基づいて実施される。

[Paper Note] Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation, Tianci Xue+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerUse #ContinualLearning Issue Date: 2026-02-21 GPT Summary- ACuRLは、ゼロ人間データでエージェントを特定環境に適応させる自律カリキュラム強化学習フレームワーク。エージェントは初期体験を基にタスクを生成し、反復的な訓練を行う。CUAJudgeによる自動評価器が人間の判断と93％一致し、効果的な環境内外での学習を実現し、4-22％の性能向上を達成。少ない更新で堅牢な適応が可能であることが示された。 Comment

元ポスト:

Loading…

[Paper Note] Hybrid-Gym: Training Coding Agents to Generalize Across Tasks, Yiqing Xie+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #SoftwareEngineering #Environment Issue Date: 2026-02-21 GPT Summary- 実際のコーディングエージェントの評価は、SWE-Benchのような単一課題に依存せず、より複雑なタスクを解決する能力に重点を置く。本研究では、転移可能なスキルを明らかにし、それを学習するための原則を導出し、Hybrid-Gymという訓練環境を提案。訓練を受けたエージェントは多様な実世界タスクに効果的に一般化し、基礎モデルの性能を大幅に向上させた。 Comment

元ポスト:

Loading…

[Paper Note] GLM-5: from Vibe Coding to Agentic Engineering, GLM-5 Team+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #SparseAttention Issue Date: 2026-02-18 GPT Summary- 次世代モデルGLM-5は、エージェント主導のエンジニアリングへ移行し、推論コストを削減しながら長い文脈の忠実度を維持する。新しい非同期強化学習インフラを実装することで、学習効率を向上させ、非同期エージェントRLアルゴリズムにより複雑な相互作用からの学習効果を高める。これによりGLM-5は最先端の性能を達成し、実世界のコーディングタスクでの能力が従来の基準を超えたことが示された。 Comment

元ポスト:

Loading…

解説:

Loading…

ASync RLにおける工夫:

Loading…

[Paper Note] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents, Zheng Chu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#GraphBased #NLP #Search #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #MultiModal #mid-training #PostTraining #VisionLanguageModel #2D (Image) #KeyPoint Notes #LongHorizon #Environment Issue Date: 2026-02-18 GPT Summary- REDSearcherは、大規模言語モデルを用いた探索エージェント最適化のための統一フレームワークであり、複雑なタスクの合成や中間訓練を効率化する。具体的には、タスクの難易度を正確に制御し、ツール使用を促進。また、基本能力や知識の強化を通じて高品質な軌跡収集を低コスト化。迅速なアルゴリズム的反復が可能なシミュレート環境を構築し、テキスト・マルチモーダル両方のベンチマークで最先端性能を達成。高品質な探索軌跡やクエリセットを公開し、今後の研究を促進する。 Comment

pj page: https://redsearchagent.github.io/index/

元ポスト:

Loading…

ざっくりとしか読めていないが、ポイントはQAを構築する際のreasoningngraphに基づく複雑度の管理と、5段階のverifierによる低品質なQAの除去にあるように見える。

QAを合成する際にQAに回答するためのreasoning graphをKGに基づいて構築し、QAに回答するための情報を網羅するための深さをQAの構造的な複雑さとし、また応答するための情報がソースにどれだけ分散しているか（1 documentにすべての情報が書かれていたらいくら構造が複雑でもone shotのexampleで応答できることになる）の両方を考慮してQAの複雑度を決定しているように見える。

また、合成されたQAから低品質なものや複雑でないめのをフィルタリングするために下記5段階のverificationを実施:
- ツールアクセス無しでLLMの世界知識のみで回答可能なものは除外
- search engine apiで検索をしtop 50に正解が出現しないものはevidenceが十分にsupportされていないとし除外
- QA合成中のKGのevidenace(KGのtripletと、キャッシュされたpassage)をLLM verifierに与え、回答と矛盾する場合は除外
- strong agentにN回rolloutを生成させ、1度も正解できなかったものは除外。またN回のうち何回正解できたかをconfidenceとして保持
- 正解rolloutを生成する過程において、strong agentによって回答がuniqueでないと判断されたものは除外する（厳密ではなくとも、曖昧なタスクを除外する効果を期待する）

上記はtext modalityのQAの合成の場合で、multi modal (image)の場合は、reasoning graphのノードの一部を画像に置換し、画像の中身を解釈した上で次のノードを検索するといった依存関係に変更することでimageを理解しないと応答不可なQAを合成するようである。
verificationについても、上記text onlyのverificationに加え、VLMに基づいたimage onlyのverification(imageだけで回答できるものは除外、imageがQuestionと関係なさすぎる場合は除外等）したり、text+imageをstrong agentに与えN回ロールアウトを実施し正解率を算出し、正解率が高すぎるQAを除外するといった処理を実施しているようである。

[Paper Note] Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook, Ming Li+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #read-later #Selected Papers/Blogs #Initial Impression Notes #Society Issue Date: 2026-02-18 GPT Summary- AIエージェント社会は人間の社会システムに似た収束ダイナミクスを辿るのかという問いに対し、初の大規模な診断を行った。動的進化を定量的に評価するフレームワークを導入し、言語の安定化や個体の惰性を測定。分析の結果、意味は迅速に安定化するが、エージェント間の多様性と語彙の変化は維持され、均質化には逆らっている。しかし、強い惰性により影響力は一過性で、安定した集団的影響の形成が妨げられている。これにより、相互作用と社会化に関する新たなデザイン原理が示唆される。 Comment

元ポスト:

Loading…

Moltbook:
- Moltbook is the most interesting place on the internet right now, Simon Willisons's blog, 2026.01

元ポストとアブストしか読めていないのだが、いまのAI Agentはたとえば下記Position Paperのように他者と協働するように作られていない[^1]からこのような現象が生じるのではないか。また、Moltbookにデプロイされているエージェントがどのような目的を設定されているかはわからないが、明確な目的やタスクが与えられないで活動している場合、エージェントの学習データはそのような状況を前提としていないので、エージェントの振る舞いもランダムなノイズのようなものになってしまうのではなかろうか。

- [Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02

逆に他者と協働しながら、特定のタスクの正しい完了を報酬とするのではなく、もっと自身の内面的な感情や動機に対して報酬が働くような枠組みが発展し、かつ協働をすることのスキルを得られるようなデータが増えればまた違ったことが起きるのではなかろうか。

[^1]:SWE Agentの例ではあるが現在のAAgentはタスクを正しく完了したことをシグナルとして訓練されるパラダイムに支配されているので協働的な要素は生まれづらいと推察される。それはおそらくマルチエージェントでも一緒である。

[Paper Note] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories, Chenlong Deng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #InformationRetrieval #Search #Dataset #LanguageModel #Evaluation #MultiModal #One-Line Notes Issue Date: 2026-02-18 GPT Summary- 既存のマルチモーダル検索システムはクエリと画像の関連性を独立して評価することを前提としているが、このアプローチは現実の視覚データの依存関係を無視している。これを解決するために、我々はDeepImageSearchを提案し、画像検索を自律的探査タスクとして再定義する。このモデルは文脈的手掛かりに基づき、視覚データの多段階推論を行いターゲットを特定する。相互に関連した視覚データ用のベンチマークDISBenchを構築し、文脈依存クエリの生成におけるスケーラビリティ課題を人的なモデル協働で解決するパイプラインも提案。また、モジュール型エージェントフレームワークと二重メモリシステムを用いて、堅牢なベースラインを開発した。実験により、DISBenchが先端モデルに対して重要な課題を示すことが明らかになり、次世代検索システムへのエージェント的推論の統合の必要性が強調されている。 Comment

元ポスト:

Loading…

検索クエリが与えられた時に、Corpus中の画像中に含まれる情報を考慮しなければ検索できないような検索タスクとベンチマークDIBenchの提案。たとえば、白と青のロゴのイベントで、lead singerだけがステージに立っている画像、のような、白と青のロゴのイベントをCorpus画像から同定（クエリと画像の相互作用）→その上で当該イベントでソロでステージにlead singerが立っている画像を探す、といったような検索である。

proprietaryモデルだとClaude-4.5-Opusの性能がよく、次いでGemini-Pro-Previewの性能が良い。GPT5.2は大きく性能面で劣っている。OpenModelと比較すると、ClaudeはQwen3-VLやGLM-4.6Vの倍程度のスコアを獲得している(Table1)。

[Paper Note] HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam, Weiqi Zhai+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation Issue Date: 2026-02-17 GPT Summary- HLE-Verifiedは、Humanity's Last Exam（HLE）の改訂版であり、ノイズの多い問題が評価に与える影響を軽減するために開発された。二段階の検証・修復プロセスを通じて、641件の検証済みアイテムと1,170件の改訂済みアイテムが生成され、残り689件は不確実性セットとして公開された。評価の結果、HLE-Verifiedは平均的な精度が7〜10パーセント向上し、特に誤りのあるアイテムでは30〜40パーセントの改善が見られた。このアプローチにより、モデル能力をより正確に測定することが可能となった。 Comment

元ポスト:

Loading…

HLE:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25, 2025.01

[Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs #KeyPoint Notes #AgentSkills #Reading Reflections #AgentHarness Issue Date: 2026-02-17 GPT Summary- LLMエージェントを強化する手続き知識のパッケージであるエージェントスキルの効果を測定するため、SkillsBenchを提案。これにより、86タスクを利用したキュレーション済みスキルと決定論的検証器を組み合わせたベンチマークを作成。各タスクはスキルなし、キュレーション済みスキル、自己生成スキルの3条件で評価。キュレーション済みスキルは合格率を平均16.2ポイント向上させるが、分野による効果の差が顕著。自己生成スキルは有意な利益をもたらさず、信頼性のある手続き的知識の自作が困難であることを示した。Focused Skillsは、包括的なドキュメンテーションを上回る効果を持ち、小型モデルがスキルを有することで大型モデルに匹敵する場合がある。 Comment

元ポスト:

Loading…

Agent Skillsに関するベンチマーク。11種類の多様なドメインのタスクによって構成される。コーディングやソフトウェアエンジニアリングに留めらないのが特徴的に見える。

評価時は
- スキルがない場合
- スキルがある場合
- 自己生成したスキルを使う場合

の3種類で評価する。

ハーネスはClaude Code, Codex CLI, Genini CLIの3種類で評価し、モデルはGPT, Claude, Gemini系列のモデルを利用。takeawayは以下:

- skillsはタスクの性能を改善するが、モデルとハーネスの組み合わせでgainが大きく異なる
- Gemini CLIとGemini Flashが最高性能を達成
- スキルを自己生成しても性能向上に寄与しない（むしろネガティブな影響も見受けられる）
- 3種類のハーネスのうち
- Claude Codeが最も多くスキルを活用し、Claudeモデルは一貫してgainを得る
- Gemini CLIは最も高いraw performanceを達成
- 性能はcompetitiveだが、Codex CLIは必要なスキルの内容を取得しても、スキルを利用せず独立して処理してしまう頻度が高い
- skillによって得られるgainはドメインによって大きく異なる。事前学習時に馴染み薄いドメインほど、skillの導入による恩恵がでかい。

- skillの導入によって、タスクによっては性能が悪化するものもある。これはモデルがすでにうまく処理をする能力を持っているのに、スキルが提供されることでそれらがconflictすることに起因する可能性がある。
- タスクごとに、2--3個のスキルを提供するのが性能がよく、4+になるとgainが低下する
- スキルの定義はproceduralな知識をコンパクト（compact)あるいは詳細に記述したもの(detailed)が良く（i.e., 特定のことについて集中的に記述するもの）、徹底的に記述されたドキュメント（comprehensive)は性能が悪化する。
- SLM+skillによって、スキル利用なしのより大きなモデルを性能で上回ることができる

Agent skillsの効果について定量的に分析した初めての研究な気がしており、重要な研究だと思われる。AI AgentというとClaudeが優秀な印象が強いが（コーディングやソフトウェアエンジニアリングでの性能に基づく印象）、本ベンチマークでは多様なドメインで評価をしており、Gemini CLI+Gemini Flashが最も平均的な性能が高いのが興味深い。

[Paper Note] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents, Yujiong Shen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #Evaluation #Science #KeyPoint Notes #LongHorizon #Environment #ToolUse Issue Date: 2026-02-17 GPT Summary- 科学的推論には高度なツール統合が必要だが、現行ベンチマークはその能力を十分に評価していない。これを解決するために、SciAgentGymを導入し、1,780個の分野特異的ツールを提供。SciAgentBenchでは、エージェント能力を初歩から長期的なワークフローまで評価。先進モデルも複雑な科学ツール使用に取り組むが、成功率は対話のホライズン拡大で急落。SciForgeというデータ合成手法を提案し、ツールアクションを依存グラフとしてモデル化。これによって、SciAgent-8Bはより大規模なモデルを上回り、科学ツール使用能力の転移を示す。次世代の自律的科学エージェントの可能性を示唆。 Comment

元ポスト:

Loading…

long horizonタスクでのtool useに関するベンチマークおよび環境の提供と、graphベースでツールの依存関係を定義し活用することで、環境上での実行によってgroundingされた高品質データを合成する手法SciForgeを提案。

ベンチマークでの評価によって、フロンティアモデルでもlong horizonになるとタスク成功率が低下することが明らかになり、性能の低いモデルは同じツールや類似したツールの繰り返しの呼び出しをするなどの挙動があることが明らかになった（他にも詳細な失敗モードの分析などがされているように見える）。
また、合成データによるSFTによって8B級のSLMでも大幅に性能が改善している模様。

[Paper Note] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs, Wei Zhou+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #SoftwareEngineering #read-later #Selected Papers/Blogs #Initial Impression Notes #Data Issue Date: 2026-02-16 GPT Summary- LLM技術がデータ前処理のパラダイムを変革中であり、幅広いアプリケーションに対応するための進化を検討。文献レビューを通じて、データクリーニング、統合、強化の主要タスクにおける手法を整理し、それぞれの利点と制約を分析。さらに、評価指標とデータセットを考察し、スケーラブルなデータシステムや信頼性の高いワークフローに向けた研究課題を提示。 Comment

元ポスト:

Loading…

自動的なデータの前処理に関するSurvey。文献は120以上引用され、美麗なフォーマットで記述されている。時系列での手法の変遷と、手法間の関係性が図解で整理されており非常にわかりやすそう。データの前処理は実務上の大きなボトルネックなのでどのような研究があるか気になる。

[Paper Note] Intelligent AI Delegation, Nenad Tomašev+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #DecisionMaking #Delegation Issue Date: 2026-02-16 GPT Summary- AIエージェントは、複雑なタスクを意味のある小さなコンポーネントに分解し、他のAIや人間に委任する能力が求められる。しかし、既存の方法は単純なヒューリスティックに依存し、環境変化への適応や Unexpected failure に対処することができない。本研究では、タスク割り当てや信頼構築を組み込んだ適応的フレームワークを提案し、複雑な委任ネットワークにおける人間とAI双方に適用可能な新たなプロトコルの開発を目指す。

[Paper Note] Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments, Romain Froger+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation Issue Date: 2026-02-16 GPT Summary- Gaia2は、大規模言語モデルエージェントを非同期環境で評価する新しいベンチマークです。静的または同期的評価と異なり、エージェントは動的に進化するシナリオで、時間的制約やノイズ、他のエージェントとの協力に適応することが求められます。各シナリオには、書き込みアクション検証器が関連付けられ、細かいアクション単位の評価が可能です。最近の評価結果では、GPT-5が最も高い成績を修得しましたが、時間に敏感なタスクでは失敗し、Claude-4は精度と速度をトレードオフする結果となりました。これらは推論、効率性、堅牢性のトレードオフを示し、実用的なエージェントシステムの開発と訓練を支援するインフラを提供することを目指しています。 Comment

元ポスト:

Loading…

[Paper Note] InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery, Shiyang Feng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #ScientificDiscovery #LongHorizon Issue Date: 2026-02-16 GPT Summary- InternAgent-1.5は、計算領域と実証領域にわたる科学的発見のための統一システムであり、生成、検証、進化の3つのサブシステムを含む。これにより、継続的な発見サイクルと改善行動を維持し、計算モデルと実験を統合可能。GAIA、HLE、GPQA、FrontierScienceのベンチマークで優れたパフォーマンスを確認し、アルゴリズム発見タスクと実証発見タスクでも競争力のある手法を自律的に設計・実行。これにより、InternAgent-1.5は自律的な科学的発見のための一般的かつスケーラブルなフレームワークを提供することが示された。 Comment

pj page (CN) : https://discovery.intern-ai.org.cn/home

元ポスト:

Loading…

[Paper Note] First Proof, Mohammed Abouzaid+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Mathematics #ScientificDiscovery #Selected Papers/Blogs #Proofs Issue Date: 2026-02-16 GPT Summary- AIシステムの数学問題回答能力を評価するため、著者が作成した10の未公開の数学問題を共有。答案は著者に知られているが、短期間は非公開とする。 Comment

pj page: https://1stproof.org/

元ポスト:

Loading…

ポイント解説:

Loading…

自分たちの研究過程で生じた自分たちは答えを発見しているが世間には未発表な問題と暗号化された解答が公開されている。2月13日時点で鍵が公開されているようだ。果たしてどの程度AIは解答ができたのだろうか？

Google DeepmindのAlethiaは10個中6つの問題を解くことができたようである:

Loading…

Alethia:
- [Paper Note] Accelerating Mathematical and Scientific Discovery with Gemini Deep Think, Google DeepMin, 2026.02

[Paper Note] GameDevBench: Evaluating Agentic Capabilities Through Game Development, Wayne Chi+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Game Issue Date: 2026-02-16 GPT Summary- ゲーム開発におけるマルチモーダルなコーディングエージェントの評価が遅れている問題に対処するため、初のベンチマーク「GameDevBench」を提案。本ベンチマークは132の複雑なタスクで構成され、コード行数とファイル変更が平均3倍以上になる。最良のエージェントでも54.5%のタスクしか解決できず、成功率はタスクの種類によって大きく異なる。マルチモーダル能力を高めるために、画像およびビデオベースのフィードバックメカニズムを導入した結果、Claude Sonnet 4.5の性能が33.3%から47.7%に向上。GameDevBenchはエージェントによるゲーム開発研究を促進する。 Comment

元ポスト:

Loading…

[Paper Note] The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context, Xiaoyuan Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ContextEngineering #memory #One-Line Notes #ContextRot Issue Date: 2026-02-13 GPT Summary- 新しい基盤モデル「StateLM」を導入し、AIが自己管理できる状態を持つエージェントに進化。コンテキストのプルーニングや文書のインデクシングなどのメモリツールを管理することで、モデルは固定ウィンドウの制約から解放されます。StateLMは長文QAやチャットメモリタスクで従来のLLMを一貫して上回り、特にBrowseComp-Plusタスクでは最大52%の精度を達成。私たちのアプローチにより、推論が管理可能なプロセスに変革されます。 Comment

元ポスト:

Loading…

言語モデルにStateを明示的に持たせて、ツールを用いて動的に過去のcontextから必要なcontextを編集、削除、読み込みなどのコンテキストエンジニアリングが可能なようにRLによって学習するようなアーキテクチャが提案されているように見える。

[Paper Note] Towards Autonomous Mathematics Research, Tony Feng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #Selected Papers/Blogs #Human-in-the-Loop Issue Date: 2026-02-12 GPT Summary- Aletheiaは、金メダル級の推論能力を持つ数学研究エージェントで、自然言語による解の生成・検証・修正を行います。競技レベルから専門研究への移行を可能にする高度なツールを活用し、オリンピック問題から博士課程レベルの演習に対応。顕著な成果として、AIが生成した研究論文や人間との協働証明、未解問の半自律評価を示します。AIの自律性と新規性の評価基準を提案し、人間とAIの協働について考察します。すべてのプロンプトとモデル出力は公開されています。 Comment

元ポスト:

Loading…

ブログ:
- [Paper Note] Accelerating Mathematical and Scientific Discovery with Gemini Deep Think, Google DeepMin, 2026.02

ポイント解説:

Loading…

[Paper Note] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning, Peng Xia+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #memory #KeyPoint Notes #ContinualLearning #AgentSkills Issue Date: 2026-02-12 GPT Summary- SkillRLは、自動スキル発見と再帰的進化を通じて、LLMエージェントが過去の経験を活用し、高レベルの再利用可能な行動パターンを抽出できるようにする新たなフレームワークです。経験に基づく蒸留を用いて階層的なスキルライブラリを構築し、強化学習中にスキルがエージェントのポリシーと共進化します。このアプローチにより、推論の有用性が向上しつつ、トークンのフットプリントが削減されます。実験はSkillRLが最先端の性能を達成し、堅牢性を保つことを示しました。 Comment

alphaxiv blog: https://www.alphaxiv.org/abs/2602.08234

元ポスト:

Loading…

AnthropicのAgent Skillsにinspireされた手法で、ポリシー側のパラメータをfreezeしてスキル群を更新していくような枠組みではなく、スキルが定義されたライブラリと、ポリシーそのものを同時に進化（スキル定義追加・更新+ポリシーの重みの更新）させていくことで、生のtrajectoryをmemoryから活用する方向性ではなく、動的にtrajectoryからスキルを構築し、構築されたスキルの使い方やretrieve方法をポリシーの内部パラメータとして組み込むことで、スキルとポリシーが共に進化していくようにしたい、それにより、生の経験（trajectory)を読み込んでadhocに利用するよりも、より一般化された形で経験を活用できるようにしたい、という話に見える。

提案手法はベースモデルを環境に対して適用しタスクに対する成功したtrajectoryと失敗したtrajectoryをまず収集する。収集したtrajectoryに対して、teacher modelで「タスクを完了するための戦略的なパターン」と「簡潔な失敗した要因」を生成させ、<スキル名, スキルの具体的なdescription, いつそのスキルを適用するか>によって定義されるスキルを定義する（従来手法は失敗したtrajectoryに関する情報は破棄していた）。スキルは2種類定義されており、汎用的に全てのタスクに適用可能なgenericなスキルと、特定のtask-specificなスキルの2種類によって構成される（この二つのスキルの集合がSKILLBANKと呼ばれる）。genericなスキルは常にポリシーのinstructionに含められ、task-specificなスキルはタスクを実行するたびに意味的な関連性に基づいてtop-kがretrieveされ利用される。これにより初期のSKILLBANKを構築する。

続いて、ベースモデルを学習して賢くしていきたい。この時初期のポリシー（=ベースモデル）はスキルのretrieve + 使い方を知らないため、teacher modelによってスキルを含めたtrajectoryを生成しSFTをすることでコールドスタート時に適用する。その後、オンポリシーRL（GRPO）を用いて、スキルをretrieveし、retrieveしたスキルを活用してタスクを完了し、完了したタスクからrewardが計算されポリシーを更新していく。この時、GRPOのエポックにおいてvalidationフェーズを用意し、特定の閾値以下のsuccess rateを持つタスクに関しては、teacher modelが失敗したtrajectoryに基づいてSKILLBANKを更新することでSKILLBANKを進化させることで性能を改善する、といった話に見える。

genericなスキルは常にinstructionに含まれるためretrieveする必要がないが、task specificなスキルはtask descriptionとskill定義のembeddieg空間上で類似度を測りtop-kが抽出される。embeddingを取得する具体的なモデルについては言及がないように見える？

[Paper Note] AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis, Zexu Sun+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#GraphBased #NLP #LanguageModel #SyntheticData #Diversity #CrossDomain #One-Line Notes #LongHorizon Issue Date: 2026-02-12 GPT Summary- 「AgentSkiller」というフレームワークを提案し、マルチターンインタラクションデータを自動で合成。DAG構造により決定性と回復性を確保し、ドメインオントロジーとエンティティグラフを構築。サービスをリンクして複雑なタスクをシミュレーションし、信頼性の高い環境を生成。約11,000件のインタラクションサンプルを合成し、訓練モデルが重要な性能改善を達成したことを示した。 Comment

元ポスト:

Loading…

最近のGeneralist Agentに対する合成データ生成手法は実APIのログ(決定的でなくなりプライバシーリスクが存在）をベースにするか、あるいはシンプルなinteractionに基づいたものに限定されており、データのカバレッジが不足しており、long hoiizonでクロスドメインのデータが不足しているという課題があるので、deterministic、かつreproducibleでスケーラブルな合成パイプラインを提案しました、という話な模様。オントロジーを用いる点が特徴的に見える。

[Paper Note] UI-Venus-1.5 Technical Report, Veuns-Team+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #mid-training #ModelMerge #Off-Policy #On-Policy #VisionLanguageModel #One-Line Notes #Rubric-based #Initial Impression Notes #GUI Issue Date: 2026-02-12 GPT Summary- 統合型エンドツーエンドGUIエージェントUI-Venus-1.5を紹介。さまざまなアプリケーションに対応する2B、8B、および30B-A3Bのモデルバリアントを持ち、10億トークンを活用したMid-Training、オンライン強化学習、ドメイン固有モデルの統合を実施。評価においてScreenSpot-Pro、VenusBench-GD、AndroidWorldで新たな最先端パフォーマンスを達成し、中国のモバイルアプリでも効果的なナビゲーションを実現。 Comment

元ポスト:

Loading…

Mid-training(navigation, grounding, reasoning, GUI-VQA, アイコンの認識等の精緻な認識能力）でGUIに関する知識を身につけさせ、オフラインRLで特定のタスクに特化した能力（grounding, navigation等）を向上し、オンラインRLで実シナリオでのエージェントのtrajectoryレベルでの能力を向上させる。これらのモデルはモバイルとwebでそれぞれ学習され、最終的にモデルマージを通じて単一のend-to-endにタスクを実現可能なエージェントを構築する。

コールドスタートの対策のためにSFTではなくオフポリシーRLを使っているのが特徴

下記研究において、SFTが各trajectoryがトークン単位で一致したときに1となるrewardを用いたRLと一致することが示されており、汎化能力に課題があることが指摘されている[^1]。汎化性能は後回しにして、特定の能力にとにかくまずは強化したいという用途であればSFTでも良いかもしれないが、downstreamなタスクがend-to-endで多様なタスクとなる場合は、オフラインRLを用いて汎化性能も考慮しつつ多面的な能力をwarmupするのが良いのかもしれない。

- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08

[^1]: ポリシーがexpertのtrajectoryに対して低い尤度を示すとimportance weightingにより非常に大きい重みがかけられることで分散が大きく、かつ報酬シグナルがsparseなことが課題であることが指摘されている。

[Paper Note] Data Agents: Levels, State of the Art, and Open Problems, Yuyu Luo+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #One-Line Notes #Data Issue Date: 2026-02-11 GPT Summary- データエージェントは、LLMやツールを活用してデータ管理や分析の自動化を目指す新しいパラダイムであるが、その定義は曖昧である。この記事では、データエージェントをL0からL5までの階層に分類し、各レベルの特徴を示す。具体的には、単純なアシスタントと自律型エージェントの違いや、L0-L2の代表的なシステムをレビューし、独自にデータ関連タスクを実行するProto-L3システムを紹介する。また、L4およびL5のエージェントに関する研究課題も議論し、データエージェントの未来のロードマップを提供する。 Comment

元ポスト:

Loading…

データを管理、準備、分析を担うエージェント（＝データエージェント）に関して、自律性のレベルを6段階に分けたTaxonomyを体系的に定義し、既存研究を分類している模様。

[Paper Note] AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration, Jianhao Ruan+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Selected Papers/Blogs #KeyPoint Notes #LongHorizon #Adaptive #Orchestration #BudgetAllocation Issue Date: 2026-02-11 GPT Summary- 任意のエージェントを命令・コンテキスト・ツール・モデルのタプルとしてモデル化し、タスクの自動化を促進する統一されたフレームワークを提案。AOrchestraでは中央オーケストレーターがタプルを具体化し、専門的な実行者を生成。この設計により、エンジニアリング作業を削減しつつ、エージェントの多様性と性能を最適化。実験では、AOrchestraが競合モデルに対して16.28%の相対改善を達成。 Comment

元ポスト:

Loading…

サブエージェントを生成するオーケストレータを学習し、動的に直面するタスクに適応したサブエージェント（適切なコンテキスト, 指示, ツール, モデル）[^1]を持つエージェントを構築し、実行を委譲することで、固定されたハーネスに依存せず、人間がエンジニアリングするコストも削減しながら、性能が向上する、という話に見える。

ベンチマークの性能向上が非常に大きく、効果的な手法であることが伺える。

[^1]: このようなサブエージェントのAbstractionを定義したのも貢献だと考えられる。

具体的な手法としては下記で、(a)オーケストレータエージェントがユーザからタスクを受け取り、サブタスクを解くためにサブエージェントを構築し委譲する。その後結果を受けとり状態を更新し、さらにサブエージェントを構築しタスクを委譲する、といった操作を繰り返す。(b)サブエージェントは(M, T, I, C)によって抽象化され、それぞれモデル、ツール、指示、コンテキストである。図中の(c)では自己教師あり学習が利用される旨が記述されているが、本文中ではSFTを使うと記述されているためここは齟齬があるように感じる（タイポも含まれている）。オーケストレーションのポイントは、タスクのオーケストレーションと、モデルのルーティングの二つの要素に分けられる。前者をSFTで学習し、後者はInstructionをiterativeに改善するプロセスで最適化する。

具体的には、オーケストレーションという特化したタスクを学習させるため、今回はexpertによる正解となる(T, I, C)を模倣できるように、SFTで学習する（GRPOのような手法でも学習できることについても言及されている点には注意）。
また、後者のモデルルーティングの最適化については、さまざまなモデルに対してInstructionを与え、得られたtrajectoryに対して性能とコストを計算し、これらを考慮してInstructionを更新することを繰り返すAutomatic Prompt Optimizationを採用している。これにより、コストと性能のパレート最適な構成を見つける。

[Paper Note] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth, Weihao Zeng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #LongSequence #LongHorizon #ContextRot Issue Date: 2026-02-10 GPT Summary- LLMは長期タスクの実行が向上する一方で、コンテキストが増えると信頼性が低下する「コンテキストロット」が問題に。これに対処するため、LOCA-benchを導入し、環境状態に応じてエージェントのコンテキスト長を調整。固定されたタスク意義の下でコンテキストを制御し、様々な管理戦略を評価。複雑な状態では相対的に性能が低下するが、高度な管理技術で成功率が向上。LOCA-benchはオープンソースで公開され、長コンテキストエージェントの評価プラットフォームを提供。 Comment

元ポスト:

Loading…

[Paper Note] AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent, Yinyi Luo+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Multi #EfficiencyImprovement #NLP #LanguageModel #Distillation #PostTraining Issue Date: 2026-02-10 GPT Summary- LLMを用いたマルチエージェントシステムを、AgentArkフレームワークで単一モデルに蒸留し計算効率を向上。三つの蒸留戦略で推論性能と自己修正能力を強化。効率的かつロバストなマルチエージェント開発を目指す。 Comment

[Paper Note] Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening, Zhenxiong Yu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Safety #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-08 GPT Summary- 「Spider-Sense」と呼ばれるイベント駆動型防御フレームワークを提案し、エージェントが危険を認識した際にのみ防御を発動。階層的な防御メカニズムにより効率と精度をトレードオフしつつ、既知のリスクを軽量マッチングで解決し、曖昧なケースは内部推論に移行。新たなベンチマーク「S$^2$Bench」を用いた実験で、競争力のある防御性能と最低の攻撃成功率を示し、わずか8.3％の遅延オーバーヘッドを実現。 Comment

元ポスト:

Loading…

従来のAI Agentのセキュリティチェックは決められたタイミングで、しばしば重いチェックがかかりレイテンシが高かったが、提案手法では動的にどの程度の計算量を費やすかを調整して、必要なタイミングで重い推論、そうでない場合は軽量なチェックで済ませることでレイテンシと性能を改善する、といったコンセプトな模様。

エージェントのステージごとにobservationを事前定義されたテンプレートで囲い、テンプレートによってスクリーニングをトリガーし、ベクトル検索によって危険度を判定する。判定した危険度が一定以下なら軽量なチェック、一定以上ならLLMによる推論を用いた重い処理を走らせるという手法に見える。図中のcのnotationが本文中に見当たらない気がするが、見落としているだろうか。

結局のところ、テンプレートによってセキュリティチェックが誘発されるように見えるので、元々の問題意識である固定されたタイミングで強制的にセキュリティチェックがかかる、という課題は解決されない気がする。固定されたタイミングで強制的にセキュリティチェックがかかる点は従来手法と変わらないが、セキュリティチェックに費やすコストや計算量を動的に変更します、という話に感じる。

[Paper Note] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty, Johannes Kirmayr+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Ambiguity Issue Date: 2026-02-08 GPT Summary- 既存のLLMエージェントのベンチマークは理想環境でのタスク完了に偏っており、実際のユーザーアプリケーションでの信頼性を無視している。本研究では、車内アシスタント向けの「CAR-bench」を提案し、マルチターン対話やツール使用を通じた不確実性管理を評価する。この環境には、58の相互接続ツールが含まれており、「幻覚タスク」と「曖昧さ解消タスク」を導入してエージェントの能力をテスト。結果は、曖昧さ解消タスクでの一貫性が50％未満と低く、ポリシー違反や情報捏造が多発することから、より信頼性の高い自己認識を持つLLMエージェントの必要性を示している。 Comment

元ポスト:

Loading…

[Paper Note] LatentMem: Customizing Latent Memory for Multi-Agent Systems, Muxin Fu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Selected Papers/Blogs #memory #KeyPoint Notes #Adaptive #Initial Impression Notes Issue Date: 2026-02-07 GPT Summary- LatentMemは、LLMを用いたマルチエージェントシステム向けに設計された学習可能なメモリフレームワークで、カスタマイズと情報最適化を実現します。経験バンクと潜在メモリを活用し、メモリエントリーの均質化と情報過多の問題を解決。タスクレベルの最適化信号を利用することで、従来のメモリ設計に対し最大19.36%の性能向上を達成しました。 Comment

元ポスト:

Loading…

skim readingしかできていないが、現在のMulti AI Agentsにおけるメモリ機構はstaticな機構であるため、メモリが均質化してしまいエージェントの役割ごとに最適化されておらず、かつlong trajectoryを扱う際に情報がコンパクトに圧縮されておらずtrajectoryが肥大化していってしまう。このため、エージェントの役割ごとに異なるメモリを生成し、かつ固定長の潜在表現に情報を圧縮する（これによりlong contextでのメモリ肥大化を防ぐ）ような新たなDeep Neural Networkに基づくMemory ComposerをRLを通じて学習するという話のようである。

エージェントのプロファイルと、experience bankから抽出された現在のクエリに対するtrajectoryに基づいて、個々のエージェントごとにrelevantな情報が圧縮されたメモリの潜在表現を生成するようなMemory ComposerをRLで学習し活用する（LMPO）。このとき、エージェントのパラメータは更新せずfreezeする。あくまでバックボーンはfreezeして変更せず、メモリ機構のみを最適化することに焦点を当てている。Memory Composerは、与えられたメモリ, エージェントの（freezeされた）パラメータ, 与えられたプロンプトによってreasoningを実施し、最終的な応答が正しかったかどうかに基づいてGRPOベースのRLVR（=LMPO）を実施することによって学習する。エージェントがメモリを活用して得られたtrajectoryはexperience bankに格納されて利用される。

既存手法と比べて多くのQAベンチマークで高い性能を獲得し、OODなベンチマークでもある程度は汎化するようである。

in-domainなベンチマークと比較して、out-of-domainなベンチマークでの性能向上が小さいので、汎化性能にまだ課題があるように感じた。解決している問題は非常に重要だと考えられ、どのようにすれば汎用的なMemory Composerが学習できるか？を考えるとおもしろそうである。

[Paper Note] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations, Wei Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Multi #NLP #ReinforcementLearning #Test-Time Scaling #PostTraining #LongHorizon #GPUKernel #Environment #Author Thread-Post Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment

元ポスト:

Loading…

[Paper Note] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning, Zelai Xu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #PostTraining #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- マルチエージェントシステムを用いた情報探索の幅のスケーリングを探求する本研究では、WideSeek-R1フレームワークを提案。リードエージェントとサブエージェントが共同最適化することで、20,000のタスクで高い性能を発揮。WideSeek-R1-4BはアイテムF1スコア40.0%を達成し、性能がサブエージェント数の増加と共に向上することを示す。 Comment

元ポスト:

Loading…

Context Foldingと比較した時の新規性がweaknessに感じる:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10

[Paper Note] A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces, Mingxuan Du+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Test-Time Scaling #One-Line Notes #Scalability #Adaptive #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- A-RAGは、階層的な取得インターフェースを通じてエージェント型のRAGシステムを実現し、モデルが適応的に情報を検索・取得できる能力を向上させる。キーワード検索、意味検索、チャンク読み取りの3つのツールを提供し、既存の方法と比較して一貫した優れた性能を示す。モデルのスケーリング特性についても体系的に検討し、今後の研究のためにコードを公開予定。 Comment

元ポスト:

Loading…

固定されたワークフローでのRAGではなく、エージェントが自ら考えて最適な検索ツールを模索し情報を自動的に取得するAgentic RAGな枠組みを提案している。研究としての新規性はweaknessだと感じるが、実務的に有効な方法だと思う。LLM側のreasoning effortやmax tokenを増やすことで性能がスケーリングするため（Test Time Scaling)これもまた実用的な手法だと感じる。

[Paper Note] Scaling Small Agents Through Strategy Auctions, Lisa Alazraki+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #SmallModel #SelfCorrection #memory #KeyPoint Notes #Scalability Issue Date: 2026-02-05 GPT Summary- 小規模言語モデルはエージェント型AIの有望なアプローチとして注目されているが、複雑なタスクでは大型モデルが必要な場合が多い。本研究では、SALEというフレームワークを提案し、エージェントが短期的な戦略計画でタスクを効率化し、コストを削減しながら自己改善を行う様子を示す。SALEは、最大エージェントへの依存を53%減少させ、コストを35%低下させることができる。これらの結果は、小型エージェントが複雑な業務には限界があるが、協調的なタスク割り当てを通じてスケールアップ可能であることを示唆している。 Comment

元ポスト:

Loading…

AIエージェントにおいて、小規模モデルは費用対効果が良い選択として期待されているが、結局のところ困難なタスクでは大規模なモデルと比較して性能が低下することから限界を指摘。費用対効果を最大化するためにフリーランスを参考に、候補となるエージェントによる入札方式を採用。エージェントはタスクを解くための戦略をプランニングし、提出された戦略をスコアリングし、かつ推定されるコストから最も費用対効果の良いエージェントを採用することでタスクを解かせるような枠組みを提案している模様。入札に負けたエージェントは、過去の入札履歴が長期メモリに蓄積されるため、それらをcontextに組み込むことで重み更新なしで自身のプランニングを改善していくことができる、というような話に見える。

[Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#DocumentSummarization #NLP #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #OOD #Generalization #KeyPoint Notes #LongHorizon #Robustness #Compression #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル（LLM）は、テスト時の適応能力により複雑な問題を解決する外挿特性を持つが、標準的な強化学習（RL）はその変化に制約がある。これに対処するために、反復デコーディングアルゴリズム（RC）を導入し、LLMの応答生成能力を活用して推論を継続的に改善。実験では、16kトークンの訓練で4BモデルがHMMT 2025でのパフォーマンスを40%から約70%に引き上げ、既存のモデルを上回る結果を示した。RCを使用したモデルは、学習した要約生成能力によりテスト時のパフォーマンスも向上できることが証明された。 Comment

元ポスト:

Loading…

reasoningの生成と、生成されたreasoningとinputで条件付けでsummaryを生成、さらにinputとsummaryで条件付けてreasoningを生成するという、生成と要約を反復する枠組みを採用（LLMはreasoningを要約することが生成するよりも得意で、かつ過去の要約から将来の推論を生成できるという非対称性を活用）することで、訓練時の予算は決まっているため、訓練時の予算では到達できないhorizonにテスト時に遭遇すると汎化しない課題を克服し、テスト時により長いステップ数の推論もこなせるように外挿する。また、このようなgeneration-summaryの反復を各ステップごとでRLVRすることでさらに性能を向上でき、実際にlong horizonな推論や学習時よりもより長いreasoning token budgetの場合に大きなgainを獲得できている。

RLVRをする際に各ステップごとのSummaryを保存しておき、各ステップのsummaryが与えられたときに正解できるかどうかのシグナルに基づいて、ステップごとの要約で条件付けられた応答能力を改善する。これにより、さまざまなステップで応答を生成する能力が強化され、結果的にshort horizonからlong horizonの推論をする能力が強化される。
このときsummaryはリプレイバッファとして扱い後のepochの訓練でもオフポリシーデータとして活用する。要約はinputに条件付けられて生成されるものであり、optimizationのtargetとは異なるためリプレイバッファとして活用でき、かつさまざまな要約に対して正解が生成できるように学習されるためテスト時の要約の分布のシフトにロバストになる。また、オンポリシーデータだけだと、long horizonに対する要約は非常に稀になるため、リプレイバッファを利用することで補う。

テスト時に学習時を超えたhorizonで推論できることは現在のAIエージェントの大きな課題だと思うので非常に興味深い研究だと思う。

[Paper Note] daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently, Mohan Jiang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #Coding #SoftwareEngineering #One-Line Notes #LongHorizon Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル（LLM）は短期的なタスクには優れていますが、長期的なワークフローへのスケーリングが課題です。本研究は、プルリクエスト（PR）シーケンスを用いてデータ合成を再概念化し、長期学習のための自然な監督信号を提供します。具体的には、進行的タスク分解、長期的一貫性の強制、バグ修正の検証を通じて、因果依存関係を保ちながら目標指向行動を促進します。実験結果は、daVinci-Agencyが高いデータ効率を即し、ベンチマーク全体での改善を達成したことを示しています。 Comment

元ポスト:

Loading…

PRのシークエンスでlong horizonデータを合成する

[Paper Note] Programming with Pixels: Can Computer-Use Agents do Software Engineering?, Pranjal Aggarwal+, ICLR'26, 2025.02

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #Coding #ICLR #SoftwareEngineering #ComputerUse #VisionLanguageModel #GUI Issue Date: 2026-02-05 GPT Summary- CUA（コンピュータ利用エージェント）は一般的なタスクを実行する可能性があるが、ソフトウェアエンジニアリングのような専門的な作業の自動化能力は不明である。本研究では、「Programming with Pixels」（PwP）を導入し、エージェントが視覚的にIDEを操作して多様なソフトウェアエンジニアリングタスクを実行する環境を提供する。また、15のソフトウェアエンジニアリングタスクに対するベンチマーク「PwP-Bench」を設立し、CUAsの性能を評価した。結果、純粋な視覚的インタラクションでは専門エージェントに劣るが、APIへの直接アクセスを与えることで性能が向上し、専門性に達することが多かった。CUAsは視覚的基盤の限界と環境の効果的な活用に課題があるが、PwPは洗練されたタスクに対する評価の新たな基準を提供する。 Comment

pj page: https://github.com/ProgrammingwithPixels/PwP

元ポスト:

Loading…

[Paper Note] Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models, Wei Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Open-endedTasks Issue Date: 2026-02-03 GPT Summary- エージェントの能力には、自律的に目標を設定し探求する「探求知能」が求められ、単なるタスク完了の「実行知能」とは異なる。データサイエンスは生データから始まるため、自然なテストベッドを提供するが、関連するベンチマークは少ない。これに対処するため、「Deep Data Research（DDR）」を提案し、LLMがデータベースから洞察を抽出するオープンエンドタスクと、評価を可能にするDDR-Benchを導入。最前線のモデルは新たなエージェンシーを示すが、長期的な探求は依然困難であり、探求知能はモデルの戦略に依存している。 Comment

元ポスト:

Loading…

[Paper Note] PaperBanana: Automating Academic Illustration for AI Scientists, Dawei Zhu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Multi #ComputerVision #NLP #Dataset #Evaluation #DiffusionModel #VisionLanguageModel #2D (Image) #AcademicWriting Issue Date: 2026-02-03 GPT Summary- PaperBananaは、学術イラストの自動生成を実現するエージェントフレームワークであり、視覚言語モデルと画像生成モデルを活用しています。専門エージェントを調整して参照を取得し、コンテンツとスタイルを計画、画像をレンダリングし、批評を通じて洗練を行います。PaperBananaBenchを用いた評価では、多様なスタイルの292のテストケースにおいて、忠実性や美的感覚で主要なベースラインを上回る成果を示しました。これにより、高品質な出版準備の整ったイラスト生成が可能となります。 Comment

pj page: https://dwzhu-pku.github.io/PaperBanana/

元ポスト:

Loading…

[Paper Note] VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning, Ye Liu+, ICLR'26, 2025.03

Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #LongSequence #PEFT(Adaptor/LoRA) #ICLR #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2026-02-01 GPT Summary- VideoMindは、動画理解のための新しい動画・言語エージェントで、時間的推論に特化した役割ベースのワークフローを導入。プランナー、グラウンダー、バリファイア、アンサーの役割を組み合わせ、LoRAアダプタを用いたChain-of-LoRA戦略で効率的に切り替え。14の公共ベンチマークにおける実験で、地に基づいた動画質問応答や一般的な動画質問応答において最先端のパフォーマンスを達成し、その有効性を示した。 Comment

pj page: https://videomind.github.io/

[Paper Note] Grounding Computer Use Agents on Human Demonstrations, Aarash Feizi+, ICLR'26, 2025.11

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ICLR #ComputerUse #PostTraining #UI Issue Date: 2026-02-01 GPT Summary- 専門家の実演から構築したデスクトップグラウンディングデータセット「GroundCUA」を提案。87のアプリをカバーし、56,000枚のスクリーンショットと356万件以上の注釈を含む。これに基づき、指示をUI要素にマッピングする「GroundNext」モデル群を開発。教師ありファインチューニングにより最先端の結果を達成し、強化学習によるポストトレーニングでさらに性能向上。高品質なデータセットがコンピューターエージェントの進展に貢献することを示唆。 Comment

pj page: https://groundcua.github.io/

元ポスト:

Loading…

[Paper Note] Scaling Embeddings Outperforms Scaling Experts in Language Models, Hong Liu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #Transformer #LongSequence #Architecture #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2026-01-30 GPT Summary- 本研究では、Mixture-of-Experts（MoE）アーキテクチャに代わる埋め込みスケーリングを検討し、その効果を体系的に分析。埋め込みスケーリングは専門家スケーリングよりも優れたパレートフロンティアを達成し、推論速度が向上することを示す。68.5BパラメータのLongCat-Flash-Liteモデルを導入し、約3Bのパラメータでトレーニングを行った結果、既存のMoEベースラインを超える性能を発揮。特にエージェント的およびコーディングの分野で競争力が示される。 Comment

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Lite

元ポスト:

Loading…

N-Gram Embeddingを用いることでMoEアーキテクチャの同等程度のモデルと比較してより高い性能を獲得しているように見える。NGramの各NごとにルックアップテーブルとProtectionのための重みを学習して最終的にAveragingをすることでContext Vectorを生成している、ようなアーキテクチャに見える。non-thinkingモデル

先行研究:
- [Paper Note] Scaling Embedding Layers in Language Models, Da Yu+, NeurIPS'25, 2025.02

[Paper Note] daVinci-Dev: Agent-native Mid-training for Software Engineering, Ji Zeng+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #SoftwareEngineering #mid-training Issue Date: 2026-01-27 GPT Summary- LLMのエージェント型ソフトウェア工学への移行を探求。ミッドトレーニングは高価な強化学習に対するスケーラブルな代替を提供し、エージェントの静的データと動的環境の不一致を解消。エージェントネイティブデータとして、文脈的にネイティブな軌跡と環境的にネイティブな軌跡を用いる。検証を通じて、従来の方法を上回る解決率を達成し、トークン数も半減。 Comment

元ポスト:

Loading…

[Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Blog #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Reference Collection #Initial Impression Notes #ContextFolding Issue Date: 2026-01-27 GPT Summary- Kimi K2.5は、テキストとビジョンの共同最適化を重視するオープンソースのマルチモーダルエージェンティックモデルです。共同プリアトレーニングや強化学習を用いて、エージェントが複雑なタスクをサブ問題に分解し同時に実行するAgent Swarmを導入。評価結果では、コーディングや推論タスクで最先端の成果を達成し、最大4.5倍のレイテンシ低減を実証しました。Kimi K2.5モデルのチェックポイントは、今後の研究や応用に活用可能です。 Comment

HF: https://huggingface.co/moonshotai/Kimi-K2.5

元ポスト:

Loading…

テクニカルレポートを受けての所見:

Loading…

Agenticなタスク（HLE, BrowsingによるQA, DeepSearch)に関するベンチでGPT-5.2(xhigh)などを超えてSoTAを達成。他のタスクではcodingではClaude-4.5-Opusの方が上、image関連のタスクではGemini 3 Proに軍配が上がっている。VideoではGeminiとcomparableという感じだろうか（GeminiはLong Contextに非常に強い印象があるがLongVideoBenchて上回っている）。この辺は各タスクごとに強いモデルの棲み分けが進んできた。
また、Kimi K2.5非常に美麗でinteractiveなフロントエンドのデモが掲載されている。

Agent Swarmは、タスクをサブタスクに分解して、複数のエージェントに並列に投げて実行（最大100 sub agent)できるような枠組みであり、それらが高性能かつ低latencyとなるように訓練れている模様。これにより性能を向上させつつlatencyを80%削減しているとのこと。
この話はContext Foldingに近い話と推察される:

- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10

How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03 によると、AgentSwarmはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられているようである。
Context Foldingは、Context Managerとポリシーが同時にFoldGRPOを通じて学習されており、エージェントそのものがサブタスク実行、結果を受け取り圧縮、メインブランチに加えるという能力をContext Managerと協調しながら実施することを学習している点が異なるように感じる。

また、並列実行したCritical Stepと呼ばれる、各サブエージェントの最大ステップ数に関する指標が導入され、これらCritical Stepをすべてのステップで集約し、特定のサブエージェントにworkloadが集中しないようにOrchestratorが調整されるとのこと。

公式ポスト:

Loading…

OpenWeightモデルの中でソフトウェアエンジニアリングスキルでSoTA:

Loading…

日本語でのポスト:

Loading…

ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03

[Paper Note] DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints, Yinger Zhang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #Planning #Evaluation #LongHorizon Issue Date: 2026-01-27 GPT Summary- 長期タスクのエージェント評価にはグローバルな制約最適化が欠けている中、DeepPlanningという新たなベンチマークを導入。これは、能動的な情報収集や局所的制約を含む旅行計画やショッピングタスクを対象とし、最先端のLLMでも難しいことを示す。エラー分析を通じて、エージェント型LLMの改善につながる方向性を指摘し、研究支援のためにコードとデータをオープンソース化。 Comment

元ポスト:

Loading…

[Paper Note] Endless Terminals: Scaling RL Environments for Terminal Agents, Kanishk Gandhi+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Diversity #Selected Papers/Blogs #One-Line Notes #Initial Impression Notes #Environment #Author Thread-Post Issue Date: 2026-01-26 GPT Summary- 自己改善エージェントのボトルネックである環境を改善するため、無人アノテーションで端末利用タスクを生成する「Endless Terminals」パイプラインを提案。タスク記述の生成から可解性のフィルタリングまでの4ステージを経て、3255のタスクを作成。PPOを用いて訓練したモデルは、ホールドアウト開発セットで大幅な性能向上を示し、Llama-3.2-3Bは4.0%から18.2%、Qwen2.5-7Bは10.7%から53.3%に改善。人間キュレーションのベンチマークでも改善し、シンプルな強化学習がスケールする環境で成功することを示す。 Comment

元ポスト:

Loading…

taskが解けるものか否かをverifyする追加のモデルが必要な点は注意とのこと。

（論文中ではo3が用いられている）

著者ポスト:

Loading…

RLにおけるターミナル上で実行可能な多様なタスクと、実際に動作可能なコンテナ、テストの生成をスケールさせることで標準的なPPOで性能が向上し、人間が収集した既存ベンチマーク（Terminal Bench 2.0)にも汎化することを示した研究。つまり、RLのタスクと環境をスケールさせれば標準的なRLアルゴリズムでも性能が向上するというメッセージがある。

本研究の他研究との位置付けがぱっと脳内で整理できなかったので、関連研究の部分を読むと、

- AgentのScaffoldの観点では、bashが実行可能なOpenHandsに近く、シェルコマンドを実行し、実行に至るまでのすべてのヒストリと出力が利用可能。

- SFTのための高品質なデータを合成するる研究が最近は多いが、SFTはRLのためのWarmUpに相当するため、本研究とそれらの研究は補完的な位置付けにある。

- ベンチマークやインタラクティブな研究の観点では、SWEBenchやTerminal Bench 2.0のように、人間が収集したベンチマークが存在し、マルチターンでアクションを通じてインタラクションしながら次のアクションを決めていく。本研究もシェル上で状態を観測しながら次のアクションを決めていくようなマルチターンの枠組みに相当する。

- verifiableな環境を合成する研究も行われている。たとえばSWEGymは2438のpythonコードのタスクと検証可能なテストを提供するが、既存のGithub Issueに依存しており、本研究のようにボトムアップに手続的に生成されるものではない。シングルターンではself-playにより困難な問題を生成する研究があるがマルチターンではない。Open Thought Agentという研究がSFT, RLのためのターミナルを用いた環境を合成する点でもっとも本研究と近いが、人間が生成したクエリやコマンドに基づいており、かつ既存のTerminal Bench 2.0といった人間によって収集されたベンチマークでのgainは得られていない。本研究では、完全に自動化されており、任意のサイズにスケールしPPOのような標準的なRLでも既存ベンチマークに転移する点が異なる。

という整理のようである。位置付けは理解できたが、本研究が既存のベンチマークにも転移するのはなぜなのだろうか？という点がまだ理解できていない。

所見:

Loading…

[Paper Note] Towards Execution-Grounded Automated AI Research, Chenglei Si+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #SelfImprovement #ScientificDiscovery #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #EvolutionaryAlgorithm Issue Date: 2026-01-24 GPT Summary- 自動化されたAI研究は科学的発見の加速に寄与するが、現在のLLMはしばしば効果的でないアイデアを生成。アイデア実装のための自動実行器を構築し、並行GPU実験を通じてその効果を検証。進化的探索と強化学習の2方法を分析し、前者はGRPOベースラインを上回るサンプル効率、後者は単純なアイデアに収束し上限を制限。実行に基づくAI研究の未来を探る。 Comment

アイデアを実行できる環境を与え、進化的な探索をRLと実行結果に基づくReward（ベンチマーク性能など）によって実施するような話で、実行結果に基づくRewardに基づいてRLすると、平均的にうまくいくように最適化され性能を最大化することに苦労する、といった知見が得られた、という趣旨の話が元ポストで記述されている。

best solutionを見つけるようにRLする研究がこちら：
- [Paper Note] Learning to Discover at Test Time, Mert Yuksekgonul+, arXiv'26, 2026.01

元ポスト:

Loading…

[Paper Note] The AI Hippocampus: How Far are We From Human Memory?, Zixia Jia+, TMLR'26, 2026.01

Paper/Blog Link My Issue
#Survey #ComputerVision #NLP #LanguageModel #MultiModal #RAG(RetrievalAugmentedGeneration) #ConceptErasure #TMLR #KnowledgeEditing #read-later #Selected Papers/Blogs #VisionLanguageModel #memory #KeyPoint Notes Issue Date: 2026-01-24 GPT Summary- メモリは、LLMおよびマルチモーダルLLMの推論と適応性を強化する基盤的要素であり、モデルが静的からインタラクティブなシステムへと進化する中で重要なテーマです。本調査では、メモリを暗黙的、明示的、エージェンティックの三つのパラダイムに分類し、各フレームワークを詳細に述べています。暗黙のメモリは内部パラメータに埋め込まれた知識を示し、明示的なメモリは外部ストレージによる動的な情報強化を指します。エージェンティックメモリは自律エージェントのための持続的な構造を提供し、長期的計画や協調行動を促進します。また、視覚や音声を含む多様なモダリティ間の整合性の重要性も考慮し、アーキテクチャの進展やベンチマークタスクに関連する挑戦について議論されています。 Comment

元ポスト:

Loading…

AI Agentのメモリに関する包括的なSurvey。現在の技術の包括的なレビューだけでなく、人間の海馬との対比などから必要な能力が議論されている模様。また、現在のメモリが抱えている課題を同定し明言していることが大きな貢献で、
- memory contamination, hallucination （無関係、不正確なデータによるメモリの汚染と、それによって生じるハルシネーション）
- large scaleな検索の計算負荷
- いつ検索するのか、パラメータに内包される知識に頼るのかの判断の困難さ
- 長期にわたるinteractionに対してどのように一貫性を保つか

ということが挙げられるとのこと。
うーーん読みたい。

openreview: https://openreview.net/forum?id=Sk7pwmLuAY

[Paper Note] Toward Efficient Agents: Memory, Tool learning, and Planning, Xiaofang Yang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #ReinforcementLearning #Planning #PostTraining #memory Issue Date: 2026-01-24 GPT Summary- エージェントシステムの効率に関する研究を行い、メモリ、ツール学習、計画の3つのコアコンポーネントに焦点を当てる。コスト（レイテンシ、トークン、ステップ）を考慮し、圧縮や強化学習報酬、効率向上のための制御された探索メカニズムを活用する最近のアプローチをレビュー。効果とコストのトレードオフをパレートフロンティアを通じて評価し、効率指向のベンチマークや主要な課題、今後の方向性についても議論する。

[Paper Note] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience, Taofeng Xue+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #OpenWeight #SelfImprovement #ComputerUse #PostTraining #read-later #VisionLanguageModel #Scalability #Initial Impression Notes Issue Date: 2026-01-23 GPT Summary- EvoCUAは、ネイティブコンピュータ使用エージェントの新モデルで、静的模倣に頼らずデータ生成とポリシー最適化を統合。自律的にタスクを生成し、検証可能な合成エンジンでデータ不足を解消。スケーラブルなインフラにより多様な経験を収集し、反復進化学習でポリシーを動的に調整。OSWorldベンチマークで56.7%の成功率を達成し、従来のモデルを大幅に超えた。このアプローチは、さまざまな基盤モデルでの性能向上を実証し、ネイティブエージェントの機能強化に寄与することを示唆している。 Comment

HF: https://huggingface.co/meituan/EvoCUA-32B-20260105

元ポスト:

Loading…

合成データ生成（タスク合成からVerifierの定義まで？)と学習のループを回すことでデータのスケーラビリティを向上し性能向上（これまでは事前に静的に合成されたtrajectoryでの学習が主流）。Rejection Samplingをして成功したtrajectoryでSFTしつつ、工夫されたDPOが用いられている模様。あとで読みたい。

[Paper Note] Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors, Zhiwei Zhang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #SelfCorrection #PostTraining #One-Line Notes Issue Date: 2026-01-23 GPT Summary- LLMはマルチターン実行において脆弱で、ツール呼び出しエラー後の自己修正が困難。従来の強化学習ではエラーが負の報酬として扱われ、復旧指針が不足している。本研究では、実行エラーを修正監督に変換するFission-GRPOフレームワークを提案。失敗した軌道をエラーシミュレーターのフィードバックで強化し、新しいトレーニングインスタンスに分裂。これにより、実際のエラーから学ぶことが可能となる。BFCL v4マルチターンで、Fission-GRPOはQwen3-8Bのエラー回復率を5.7％改善し、全体的な精度を4％向上させた。 Comment

元ポスト:

Loading…

tool useの学習をさせる際に通常のGRPOでの更新に加えて、ロールアウトで実行エラーとなったものを収集し、エラーに対して診断フィードバックを与え、その文脈からエラーを回復するようなロールアウトを実施し学習することで、自己修正能力を身につけさせるような手法に見える。

[Paper Note] Learning to Discover at Test Time, Mert Yuksekgonul+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ScientificDiscovery #read-later #Selected Papers/Blogs #ContinualLearning #Initial Impression Notes #Test Time Training (TTT) Issue Date: 2026-01-23 GPT Summary- LLMを用いたテスト時トレーニングによる発見（TTT-Discover）を提案し、特定の科学的問題に対し優れた解を生成。強化学習を通じて、独自の経験を持つLLMが問題解決に集中。数学から生物学までの様々な課題で新たな最先端を達成し、成果はオープンソースのモデルを用いて再現可能。 Comment

test timeにモデルが解空間を探索するようにweightをupdateすることを（RLで）学習し、平均的に良いsolutionではなくbestなsolutionを見つけるような目的関数を用いることで、scientic discoveryの能力を向上

pj page: https://test-time-training.github.io/discover/

[Paper Note] Agentic Reasoning for Large Language Models, Tianxin Wei+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #Planning #Reasoning #SelfImprovement #memory #One-Line Notes #Test-time Learning Issue Date: 2026-01-23 GPT Summary- エージェンティック推論は、LLMを自律的エージェントとして再構築し、計画や行動を行う新たなアプローチを提供します。本調査では、推論を基盤、自己進化、集合的の三つの次元に整理し、それぞれの特性と相互作用を探ります。また、文脈内推論とポストトレーニング推論の違いを示し、さまざまな現実世界でのアプリケーションをレビューします。この研究は、思考と行動を結びつける統一的なロードマップを提示し、今後の課題と方向性を概説します。 Comment

元ポスト:

Loading…

agentのreasoning周りに特化したsurveyで基本的なsingle agentとしてのplanning, tool use, searchだけでなく、self evolving, memory, multi agent reasoningなど広範なトピックが網羅されているとのこと。

[Paper Note] CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning, Zhiyuan Lu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) #LongSequence #Selected Papers/Blogs #memory #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- CorpusQAは、最大1,000万トークンに対応する新しいベンチマークで、広範な非構造的テキストに対する全体的な推論を求める。これは、プログラムによって保証された真実の回答を持つ複雑なクエリを生成する革新的なデータ合成フレームワークを用いており、LLMの長期コンテキスト推論能力を向上させることが実証された。一方で、長い入力に対しては現行のリトリーバーシステムが限界を迎え、メモリ拡張型エージェントアーキテクチャがより効果的な解決策となる可能性が示唆された。 Comment

元ポスト:

Loading…

10Mコンテキストまで性能を測定可能なベンチマークらしく、結果を見ると以下のようになっている。128KコンテキストではGPT5に軍配が上がり、1M級のコンテキストになるとGeminiがやはり強い（これは昔からそうでFiction.liveベンチなどでも示されていた）。

10Mコンテキスト級ではLLMのコンテキストウィンドウのみでは対応不可なので、RAGやMemory Agextでベンチマーキングされているが、明確にAgentの方が性能が良い。ベンチマークの細かな作り方や、harnessなど、具体的にどのような設定で実験されているのか気になる。

[Paper Note] The End of Reward Engineering: How LLMs Are Redefining Multi-Agent Coordination, Haoran Su+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #RewardModel Issue Date: 2026-01-19 GPT Summary- 報酬エンジニアリングは多エージェント強化学習の重要な課題であり、環境の非定常性や相互作用の複雑さがその難しさを増しています。最近の大規模言語モデル（LLMs）の進展により、数値的報酬から言語ベースの目的指定への移行が期待されています。LLMsは自然言語から報酬関数を合成したり、最小限の人間の介入で報酬を適応させたりする能力を示しています。また、言語による監視が従来の報酬エンジニアリングの代替手段として機能する新たなパラダイム（RLVR）が提案されています。これらの変化は、セマンティック報酬の指定や動的報酬の適応と関連し、未解決の課題や新しい研究方向が示唆されます。 Comment

元ポスト:

Loading…

[Paper Note] Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents, Yi Yu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #memory #KeyPoint Notes Issue Date: 2026-01-14 GPT Summary- AgeMemは、LTMとSTMをエージェントのポリシーに統合し、メモリ操作を自律的に管理できるフレームワークを提案。3段階の強化学習で訓練し、5つのベンチマークでメモリ拡張性能が向上。タスクパフォーマンスと効率的なコンテキスト使用を実現。 Comment

元ポスト:

Loading…

従来のAI Agentsにおけるメモリ管理は、short / long term memory [^1] の観点で見ると、双方を別々のコンポーネントとして扱われてきたが（short term memoryはRAGコンポーネント, long term memoryはagentic memoryの文脈で別々に研究され、trigger-based（決められたタイミングで決められた操作を実行する）、agent-based（何を・どのように格納するかを管理するエージェントを構築する））これらはヒューリスティックなルール (Figure1 left) や異なるexpertなモデルを必要とする(Figure1 (middle))ことからシステムのアーキテクチャを複雑にしているし(Figure1 left and middle)、それぞれが独立に構築され疎結合であるため、sub-optimalな性能しか出せておらず、long-horizonな実行を考えたときに双方を統合的に扱う枠組みが必要不可欠であると考えられるためそれが可能な枠組みを提案した、という話に見える。

[^1]: short memoryは現在のinput context全体を指し、long term memoryは永続的に保持されるユーザやtask specificなメモリのこと

解説:

Loading…

[Paper Note] Can We Predict Before Executing Machine Learning Agents?, Jingsheng Zheng+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Dataset #Planning #Evaluation #read-later #Initial Impression Notes Issue Date: 2026-01-14 GPT Summary- 自律的な機械学習エージェントは「生成-実行-フィードバック」パラダイムに依存しているが、高価な実行に制約されている。本研究では、事前情報を内部化し、瞬時の予測的推論に置き換えることでこの問題を解決。データ中心のソリューションを形式化し、18,438のペア比較からなるコーパスを構築。LLMが高い予測能力を示し、61.5％の精度を達成。FOREAGENTエージェントは予測-確認ループを採用し、収束を6倍速め、実行ベースラインを6％上回る成果を達成。コードとデータセットは近日中に公開予定。 Comment

元ポスト:

Loading…

（読了前の第一印象）問題設定や着眼点が実用的で興味深い。

[Paper Note] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning, Chengwen Liu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #MultiModal #VisionLanguageModel #DeepResearch #4D (Video) #One-Line Notes Issue Date: 2026-01-14 GPT Summary- VideoDRは、ビデオを基にしたオープンドメインのビデオ質問応答のための新たな深層研究ベンチマークで、フレーム間の視覚的手がかり抽出やインタラクティブなウェブ検索、マルチホップ推論を要求する。高品質なビデオサンプルを提供し、複数のマルチモーダル大規模言語モデルの評価を行った結果、エージェントの性能はワークフローに依存することが示された。VideoDRは次世代ビデオ深層研究エージェントへの重要な課題を明らかにする。 Comment

元ポスト:

Loading…

初めてのvideo deep researchベンチマークとのこと

[Paper Note] Dr. Zero: Self-Evolving Search Agents without Training Data, Zhenrui Yue+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Search #LanguageModel #QuestionAnswering #ReinforcementLearning #SelfImprovement #PostTraining #On-Policy #KeyPoint Notes Issue Date: 2026-01-14 GPT Summary- データフリー自己進化が注目される中、大規模言語モデル（LLM）のための「Dr. Zero」フレームワークを提案。多様な質問を生成し、自己進化フィードバックループで解決者をトレーニング。HRPOを導入し、類似質問のクラスタリングを行うことで計算効率を向上。実験結果は、データフリーの検索エージェントが監視型と同等以上の性能を達成することを示す。 Comment

元ポスト:

Loading…

（検索とReasoningを通じてSolver用の学習データとしてのverifiableな）QAを生成するProposerと、それを（検索とReasoningを通じて）解決するSolverの双方をRLするような枠組みで、ProposerはSolverからのDifficulty Reward (QAのverifiabilityとSolverの成功率（自明でなく難しすぎもしない丁度良い難易度か, 式(4)）として受けとりHRPOと呼ばれる手法で改善、SolverはGRPOでRLVRする、といった枠組みに見える。QAはProposerが合成するので事前にデータを用意する必要がない、ということだと思われる。

HRPOはGRPO同様にon policyなRL手法であり、従来のself-evolving手法ではsingle hopなQuestionに合成結果が偏りやすく、かつon policyな手法でProposerを学習しようとしたときに、naiveにやるとm個のクエリに対して、クエリごとにsolverのn個のロールアウトが必要な場合、(m+1)*n回のロールアウトがpromptごとに必要となるため、計算コストが膨大になりスケーリングさせる際に深刻なボトルネックとなる問題を解決したものである。
具体的には、単一のpromptに対して複数のsolverによるロールアウトからadvantageを計算するのではなく、同じhop数の合成されたQAでクラスタリングを実施しておき、そのグループ内の（構造や複雑度がhop数の観点で類似した）QAに対するロールアウトに基づいてadvantageを計算する（3.2切に明記されていないが、おそらくロールアウトはQAごとに少数（1つ））。似たようなhop数を要するQAによってadvantageが正規化されるためadvantageの分散を小さくとることが期待され、かつロールアウトの回数を減らせるため計算効率が良い、という利点がある(3.2節）。

解説:

Loading…

[Paper Note] EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning, Chuanrui Hu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #ContextEngineering #memory #LongHorizon Issue Date: 2026-01-13 GPT Summary- EverMemOSは、長期的なインタラクティブエージェントのための自己組織化メモリオペレーティングシステムで、エピソディックトレースをMemCellに変換し、ユーザープロファイルを更新することで一貫した行動を維持します。実験により、メモリ拡張推論タスクで最先端のパフォーマンスを達成し、ユーザープロファイリングやチャット指向の能力を示すケーススタディも報告しています。 Comment

元ポスト:

Loading…

[Paper Note] Digital Red Queen: Adversarial Program Evolution in Core War with LLMs, Akarsh Kumar+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Multi #MachineLearning #NLP #LanguageModel #Generalization #EvolutionaryAlgorithm #AdversarialTraining Issue Date: 2026-01-12 GPT Summary- 大規模言語モデル（LLMs）を用いた自己対戦アルゴリズム「デジタルレッドクイーン（DRQ）」を提案。DRQは、コアウォーというゲームでアセンブリプログラムを進化させ、動的な目的に適応することで「レッドクイーン」ダイナミクスを取り入れる。多くのラウンドを経て、戦士は人間の戦士に対して一般的な行動戦略に収束する傾向を示し、静的な目的から動的な目的へのシフトの価値を強調。DRQは、サイバーセキュリティや薬剤耐性などの実用的な多エージェント敵対的ドメインでも有用である可能性を示唆。 Comment

元ポスト:

Loading…

[Paper Note] Agent-as-a-Judge, Runyang You+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #LLM-as-a-Judge Issue Date: 2026-01-12 GPT Summary- LLM-as-a-Judgeの限界を受け、エージェント型評価（Agent-as-a-Judge）への移行が進んでいる。エージェントは計画やツールを用いた検証を通じて、より堅牢でニュアンスのある評価を実現。しかし、統一されたフレームワークが欠如しているため、初の包括的な調査を行い、重要な次元を特定し、分類法を確立。コアメソッドやアプリケーションを整理し、課題を分析して次世代のエージェント型評価のためのロードマップを提供する。 Comment

元ポスト:

Loading…

Agent-as-a-Judge

（画像はCC By 4.0に基づいて使用しています）

[Paper Note] SimpleMem: Efficient Lifelong Memory for LLM Agents, Jiaqi Liu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Selected Papers/Blogs #memory #Initial Impression Notes Issue Date: 2026-01-09 GPT Summary- LLMエージェントのために、効率的なメモリシステムSimpleMemを提案。三段階のパイプラインで、意味的構造圧縮、再帰的メモリ統合、適応的クエリ認識型検索を実施し、情報密度とトークン利用を最大化。実験により、精度が26.4%向上し、トークン消費が最大30倍削減されることを確認。 Comment

pj page: https://aiming-lab.github.io/SimpleMem-Page/

ポイント解説:

Loading…

追加の学習などが不要で、かつ高性能・低コストで動作するRetrieval basedなmemory（特定のLLMに依存しない点も良い）であり、実務的に導入が容易であり、実用性が高いため重要研究に見える。

[Paper Note] MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents, Dongming Jiang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#memory Issue Date: 2026-01-09 GPT Summary- MAGMAは、意味的、時間的、因果的、エンティティ情報を直交するグラフで表現するマルチグラフエージェントメモリアーキテクチャを提案。これにより、クエリに適応した選択と構造化されたコンテキストの構築が可能になり、透明な推論経路を提供。実験結果から、MAGMAは長期的な推論タスクで最先端のエージェントメモリシステムを上回る性能を示した。 Comment

元ポスト:

Loading…

[Paper Note] The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL, Yingru Li+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #read-later #Selected Papers/Blogs #LongHorizon Issue Date: 2025-12-27 GPT Summary- 最適トークンベースライン（OTB）を導出し、勾配更新を累積勾配ノルムに反比例して重み付けすることで、長期タスクにおけるトレーニングの崩壊を軽減。ロジット-勾配プロキシを用いて効率的に勾配ノルムを近似し、単一ターン及びツール統合推論タスクで高い安定性を実現、グループサイズを$N=32$から$N=4$に削減しつつ性能を維持、トークン消費を65％以上削減。 Comment

元ポスト:

Loading…

[Paper Note] Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents, Yueqi Song+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ICLR #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-10-30 GPT Summary- 本研究では、エージェントデータの収集における課題を解決するために、エージェントデータプロトコル（ADP）を提案。ADPは多様なデータ形式を統一し、簡単に解析・トレーニング可能な表現言語である。実験により、13のエージェントトレーニングデータセットをADP形式に統一し、標準化されたデータでSFTを実施した結果、平均約20％の性能向上を達成。ADPは再現可能なエージェントトレーニングの障壁を下げることが期待される。 Comment

pj page: https://www.agentdataprotocol.com

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

エージェントを学習するための統一的なデータ表現に関するプロトコルを提案

続報:

Loading…

openreview: https://openreview.net/forum?id=tG6301ORHd

[Paper Note] VisCoder2: Building Multi-Language Visualization Coding Agents, Yuansheng Ni+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Evaluation #Coding #ICLR Issue Date: 2025-10-30 GPT Summary- 大規模言語モデル（LLMs）を用いた視覚化コーディングエージェントは、実行や修正において課題がある。これを解決するために、679Kの視覚化サンプルを含むデータセットVisCode-Multi-679K、自己デバッグ用のベンチマークVisPlotBench、そしてマルチ言語モデルVisCoder2を提案。実験結果では、VisCoder2がオープンソースのベースラインを超え、商用モデルに近い性能を示し、特に記号的言語での成功が顕著であった。 Comment

pj page: https://tiger-ai-lab.github.io/VisCoder2/

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=4zoMnmZzh4

[Paper Note] The Alignment Waltz: Jointly Training Agents to Collaborate for Safety, Jingyu Zhang+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Alignment #ReinforcementLearning #Safety #ICLR #One-Line Notes #Author Thread-Post Issue Date: 2025-10-15 GPT Summary- WaltzRLという新しいマルチエージェント強化学習フレームワークを提案し、LLMの有用性と無害性のバランスを取る。会話エージェントとフィードバックエージェントを共同訓練し、応答の安全性と有用性を向上させる。実験により、安全でない応答と過剰な拒否を大幅に減少させることを示し、LLMの安全性を向上させる。 Comment

元ポスト:

Loading…

マルチエージェントを用いたLLMのalignment手法。ユーザからのpromptに応答する会話エージェントと、応答を批評するフィードバックエージェントの2種類を用意し、違いが交互作用しながら学習する。フィードバックエージェント会話エージェントが安全かつ過剰に応答を拒絶していない場合のみ報酬を与え、フィードバックエージェントのフィードバックが次のターンの会話エージェントの応答を改善したら、フィードバックエージェントに報酬が与えられる、みたいな枠組みな模様。

著者による一言解説:

Loading…

[Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, ACL'26, 2025.10

Paper/Blog Link My Issue
#NLP #UserModeling #Dataset #LanguageModel #UserBased #Evaluation #ACL #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-10-08 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

実際の人間にあるような癖（のような摂動）を与えた時にどれだけロバストかというのは実応用上非常に重要な観点だと思われる。元ポストを見ると、LLM内部のmatmulを直接操作することで、任意のレベルの人間の特性（e.g.,疑い深い、混乱、焦りなど）を模倣する模様。

[Paper Note] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, ICLR'26, 2025.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #SelfImprovement #ICLR #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes #AgentHarness Issue Date: 2025-06-05 GPT Summary- ダーヴィン・ゴーデルマシン（DGM）は、自己改善するAIシステムであり、コードを反復的に修正し、コーディングベンチマークで変更を検証します。進化とオープンエンドな研究に基づき、生成されたエージェントのアーカイブを維持し、新しいバージョンを作成することで多様なエージェントを育成します。DGMはコーディング能力を自動的に向上させ、SWE-benchでのパフォーマンスを20.0%から50.0%、Polyglotでのパフォーマンスを14.2%から30.7%に改善しました。安全対策を講じた実験により、自己改善を行わないベースラインを大幅に上回る成果を示しました。 Comment

元ポスト: https://www.linkedin.com/posts/omarsar_new-paper-open-ended-evolution-of-self-improving-activity-7334610178832556033-8dA-?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01

あたりの研究とはどう違うのだろうか、という点が気になる。

openreview: https://openreview.net/forum?id=pUpzQZTvGY

> * [[Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24 [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01 ](https://github.com/AkihikoWatanabe/paper_notes/issues/1212)
>
> あたりの研究とはどう違うのだろうか、という点が気になる。

この点については、Self-Rewarding LLMではモデルの重みを（自身が生成した出力からPreference pairを構築し）DPOで更新していくのに対し（=Agent Harnessではなくモデル自身を賢くする）、

DGMでは基盤モデルはfrozenな上で、AI Agentのコードベースそのものをself-editingすることによって進化する点が異なる（=モデルではなくAgent Harnessを賢くする）。

baseとなるエージェントのコードベースは木構造に基づいて管理され、recursiveに探索されていき、ベンチマークのスコアを改善していく、という感じのようである。木構造によって過去のsolutionが保持され、単一の方向性のみが探索されることを抑制し（i.e., オープンエンドな探索が促進され）進化が局所解に陥ることを防ぐ。

3節冒頭に記述がある通り、Gödel Machineというのは2007年に提案された、AI自身が自らを証明可能な形で改善する方法を探索する理論的概念であるようだが、DGMではGödel Machineでの「変更によってシステムが改善されることを理論的に証明しなければならない」という点を緩和し、「変更が性能を向上させるという実験結果を用いる」ことで緩和する。

[Paper Note] Ambig-SWE: Interactive Agents to Overcome Underspecificity in Software Engineering, Sanidhya Vijayvargiya+, ICLR'26, 2025.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #QuestionGeneration #ICLR #SoftwareEngineering #One-Line Notes Issue Date: 2025-04-02 GPT Summary- AIエージェントは、欠落情報を補うための推測や明確化の質問を避けることで、安全リスクやリソース浪費を引き起こすことがある。本研究では、対話型コード生成における不十分な指示への対処能力を評価し、(a) 不十分さの検出、(b) 明確化質問の提示、(c) 対話の活用による性能向上の三つのステップで検証した。Ambig-SWEを使用し、モデルは不十分な指示を区別するのに苦労しつつ、対話時には最大74%の性能向上を示した。これにより、対話の重要性が浮き彫りになった。研究は、最新モデルの情報処理におけるギャップを明らかにし、評価の段階的アプローチを提案している。 Comment

曖昧なユーザメッセージに対する、エージェントが"質問をする能力を測る"ベンチマーク

openreview: https://openreview.net/forum?id=X2yzXtH4wp

[Paper Note] An Illusion of Progress? Assessing the Current State of Web Agents, Tianci Xue+, COLM'25, 2025.04

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #COLM #ComputerUse #VisionLanguageModel #GUI Issue Date: 2026-04-10 GPT Summary- ウェブエージェントの能力を包括的に評価し、既存の楽観的な見解との乖離を明らかに。Online-Mind2Webという新たなベンチマークを用い、300の現実的なタスクで評価を実施。新しい自動評価手法を開発し、人間の判断と85%の一致を達成。ウェブエージェントの強みと限界を示し、今後の研究の方向性を提案。 Comment

openreview: https://openreview.net/forum?id=6jZi4HSs6o

[Paper Note] OSGym: Scalable OS Infra for Computer Use Agents, Zengyi Qin+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #NLP #Infrastructure #SoftwareEngineering #ComputerUse #read-later #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-04-07 GPT Summary- コンピュータ利用エージェントの訓練には、リソース効率の良いスケーラブルなOS環境が必要であり、OSGymを提案。主な特徴は、(1) 故障の分散型管理でシステム信頼性を向上、(2) CPUボトルネック対策によるオーバーヘッド軽減、(3) コピーオンライトによるディスク利用の大幅削減、(4) 堅牢なフォールトリカバリの実装。OSGymは1000以上のOSレプリカを管理し、コストを90%削減しつつ、高速なマルチターン軌道生成を実現。これにより、汎用的なエージェント研究の基盤を提供。 Comment

元ポスト:

Loading…

ソースやcodeをオープンにはしないのだろうか。と思ったら、リプにoss releaseの準備をしていると言及があった。

[Paper Note] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, Jun Shern Chan+, ICLR'25, 2024.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #AutoML #ICLR #Selected Papers/Blogs Issue Date: 2026-03-30 GPT Summary- MLE-benchは、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークで、75件のKaggle競技を厳選し、実世界のスキルを試すタスクを作成。人間ベースラインを確立し、最先端の言語モデルを評価した結果、OpenAIのo1-previewとAIDEスキャフォールドの組み合わせが16.9%の競技でKaggleブロンズメダル以上の性能を示した。リソーススケーリングや事前学習の影響も調査し、ベンチマークコードをオープンソース化して今後の研究を促進する。 Comment

blog:
- MLE-Bench, OpenAI, 2024.10

openreview: https://openreview.net/forum?id=6s5uXNWGIh

[Paper Note] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey, Guibin Zhang+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #ReinforcementLearning Issue Date: 2026-03-08 GPT Summary- エージェント的強化学習は、LLMを自律的な意思決定エージェントとして再定義するパラダイムシフトを示す。本研究では、LLM-RLの単一步のMDPとエージェント的RLのPOMDPを対比し、計画や推論などの核心能力に基づく二重分類法を提案。強化学習がこれらの能力を静的なヒューリスティックから適応的な振る舞いに変換する機構として機能することを強調。500件以上の研究をまとめ、オープンソースの環境やベンチマークを整理し、汎用的なAIエージェントの開発における機会と課題を明らかにする。 Comment

元ポスト:

Loading…

[Paper Note] Context Engineering for AI Agents in Open-Source Software, Seyedmoein Mohsenimofidi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Coding #SoftwareEngineering #ContextEngineering #Initial Impression Notes #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AGENTS.mdを通じて、AIコーディングアシスタントにおける文脈情報の提供方法を調査。466のオープンソースプロジェクトから得たデータに基づき、情報の提示方法や進化を分析。結果、標準化された構造は存在せず、提供方法に大きなばらつきがあることが明らかに。AI文脈ファイルの設計が内容の品質向上に与える影響を研究する潜在性を示唆。 Comment

元ポスト:

Loading…

オープンソースのリポジトリにおけるAGENTS.mdに関する分析らしい。

[Paper Note] Improving LLM Agents with Reinforcement Learning on Cryptographic CTF Challenges, Lajos Muzsai+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #RLVR #Security Issue Date: 2026-02-17 GPT Summary- セキュリティ分野におけるLLMエージェントの潜在能力を引き出すために、手続き的に生成された暗号用CTFデータセット『Random-Crypto』を提案。暗号推論を強化学習の理想的なテストベッドとして活用し、Pythonツールを用いてLlama-3.1-8BをGRPOでファインチューニング。得られたエージェントはPass@8で顕著な改善を見せ、『picoCTF』や『AICrypto MCQ』の外部ベンチマークにも一般化。アブレーション研究により、ツール活用の強化と手続き的推論の向上が寄与していることが示され、複雑なサイバーセキュリティタスクに対応可能な知的LLMエージェント構築の基盤を確立。 Comment

元ポスト:

Loading…

[Paper Note] Procedural Environment Generation for Tool-Use Agents, Michael Sullivan+, EMNLP'25, 2025.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #EMNLP #PostTraining #Environment #ToolUse Issue Date: 2026-02-17 GPT Summary- ツール利用エージェントの研究を促進する中、オンラインRL訓練におけるツール利用データのキュレーションが課題となっている。これに対処するため、対話型かつ構成的なツール利用データを手続き的に生成するRandomWorldを提案。これを用いたモデルは、さまざまなツール利用ベンチマークを向上させ、NESTFULデータセットで新たなSoTAを樹立。さらに、RandomWorld由来のデータ量が下流性能向上に寄与することを実証し、合成データの利用が改善の可能性を拓くことを示した。 Comment

元ポスト:

Loading…

[Paper Note] SWE-smith: Scaling Data for Software Engineering Agents, John Yang+, NeurIPS'25 Spotlight, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #NeurIPS #SoftwareEngineering #PostTraining #One-Line Notes #Scalability #Environment Issue Date: 2026-02-17 GPT Summary- ソフトウェア工学向け言語モデル（LM）のトレーニングデータ収集は依然として課題であり、データセットは小さく、編纂に数百時間かかる。これを解決するために、SWE-smithという新しいデータ生成パイプラインを提案。任意のPythonコードベースを基にタスク例を自動合成し、約5万件のデータセットを作成。このデータで訓練したSWE-agent-LM-32Bが、最先端の解決率を達成。SWE-smithをオープンソース化し、参入障壁を下げることを目指す。 Comment

元ポスト:

Loading…

データの構築方法はあまりしっかり読めていないが、モデルの学習方法がabstからよくわからなかったのでざっくり読むと、SWE-Smithのinstanceに対してstrong model(実験ではClaude)でtrajectoryを生成しベースモデルをSFTするようである。

openreview: https://openreview.net/forum?id=63iVrXc8cC&referrer=%5Bthe%20profile%20of%20Carlos%20E.%20Jimenez%5D(%2Fprofile%3Fid%3D~Carlos_E._Jimenez1)

[Paper Note] R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents, Naman Jain+, COLM'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #Coding #Test-Time Scaling #SoftwareEngineering #COLM #PostTraining #Verification #KeyPoint Notes #Scalability #Hybrid #Environment Issue Date: 2026-02-17 GPT Summary- AgentGymは、GitHubのIssue解決を目的としたSWEタスクのための手続き的にキュレーションされた大規模な実行可能ジム環境で、8,700以上のタスクから構成されています。主な貢献は、合成データキュレーションの手法SYNGENによるスケーラブルな環境構築と、実行ベースおよび実行不要の検証機を用いたハイブリッド・テスト時スケーリングです。これにより、SWE-Bench Verifiedベンチマークで51%のパフォーマンスを達成し、従来のプロプライエタリモデルと競合する能力を示しました。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=7evvwwdo3z#discussion

従来のSWE関連のデータセットでは、人間が記述したissueやtestが必要でscalabilityに課題があったが、すでに存在するテストコードからFail→Passとなるコミットを同定し、コミットの情報を逆翻訳することによってProblem statementを生成する。従来手法ではIssueの記述をそのまま使っていたが、スケーラブルではないので異なるアプローチが求められる。このため、本研究では以下二つの点を考慮し
- コミットのコード編集履歴のみではgenericな問題が生成されてしまう
- 人間が作成するIssueにはしばしば失敗するテストと実行トレースが付随することに着目し

Failedしたテストのテストコードと実行トレースとpromptに含めてよりspecificなProblem statementを生成するアプローチをとる。

また、SWEエージェントが出力するパッチの中からより良いパッチをランキング付けするためのtest-time scaling手法も提案している。具体的には、task description D, agent trajectory T, Patch Pが与えられた時にPatch PのスコアSを得る問題として定式化できる。このスコアを得る方法として、execution basedなverifierとexecution freeなverifierの2種類を分析し、最終的に両者のハイブリッドによってより良いtest-time scalingのgainが得られることを示している。

具体的には、前者はtest codeを自動生成するエージェントを学習し、taskに必要な機能に関するテストと、taskを解くための実装によって既存の機能が壊れていないかに関するテスト（回帰テスト）の2種類によって構成され、回帰テストのスコアが最も良いパッチに対して、テストがどれだけパスしたかによってスコアリングをする。
後者については、D, T, Pが与えられた時に、各Trajectory tが正しいものがどうかを2値分類するverifierを学習し、全体のtrajectoryの数に対するyesの割合によってスコアを定義する。

これらのverifierを分析した結果、双方共にtest-time scalingに対してgainを得られることがわかったが、前者はパッチの正しさに対して直接的なシグナルを得られるが、パッチそのものの質を識別する能力が低く、後者はパッチの質の識別力は高いが、エージェントの思考によるバイアスが課題として存在することがわかった。これより、両者は補完的な関係にあると考えられ、両者をハイブリッドすることによって、より良好なtest-time scalingによるgainを得ることが可能なことが示されている。興味深いのは、editing agent (i.e., パッチを生成するエージェント）のロールアウト数をスケープすることでも性能が改善するが、testing agentのロールアウト数をスケールすることで、editing agentのロールアウトを単にスケールするよりもより効率的なスケーリング性能を得られることである。

[Paper Note] Language Server CLI Empowers Language Agents with Process Rewards, Yifan Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #SoftwareEngineering Issue Date: 2026-02-13 GPT Summary- 言語サーバーを利用し、LSPサーバーを固定してコーディングエージェントやCI向けのCLI中心のオーケストレーションレイヤー「Lanser-CLI」を提案。これにより、構造的情報と実行可能なプロセス報酬を提供し、決定論的かつ再現可能なワークフローを実現。具体的には、堅牢なアドレス指定、安定した解析バンドル、セーフガードを伴う変異操作、オンラインで計算可能なプロセス報酬機能を機能させ、プロセス監視や反事実分析に適したシステムを構築。 Comment

元ポスト:

Loading…

pj page: https://yifanzhang-pro.github.io/lanser-cli/

[Paper Note] Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory, Tianxin Wei+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #memory #Test-time Learning Issue Date: 2026-02-05 GPT Summary- 状態性はLLMエージェントの長期的計画に不可欠であり、メモリ管理の進化が未探索である点に焦点を当てる。本研究では、Evo-Memoryという自己進化メモリの評価フレームワークを提案し、LLMが累積した経験を動的に処理する能力を向上させる。具体的には、タスクストリームを構造化し、メモリの検索・適応を要求。10のメモリモジュールと多様なデータセットで評価し、経験再利用のためのExpRAGおよび推論を統合するReMemパイプラインを提案、継続的な改善を実現する。 Comment

元ポスト:

Loading…

[Paper Note] AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance, Dhaval Patel+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#Multi #NLP #Dataset #LanguageModel #Evaluation #One-Line Notes Issue Date: 2026-02-03 GPT Summary- AIを活用した産業資産ライフサイクル管理は、運用ワークフローの自動化を目指し、人間の負荷を軽減します。従来の技術は特定の問題に対処するに過ぎませんでしたが、AIエージェントと大規模言語モデルの登場により、資産ライフサイクル全体のエンドツーエンド自動化が可能になりました。本論文では、AssetOpsBenchというエージェント開発のための統合フレームワークを紹介し、知覚、推論、制御を統合した自律的なエージェントの構築について具体的な洞察を提供します。ソフトウェアはGitHubで公開されています。 Comment

dataset: https://arxiv.org/abs/2506.03828

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=ld6JUQbhes

産業におけるアセットの管理に関する（非常に複雑な）end-to-endなベンチマークで、multi agentに対する評価が前提となっている模様。

[Paper Note] ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks, Saurabh Jha+, ICML'25, 2025.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Financial #ICML #SoftwareEngineering #read-later #One-Line Notes Issue Date: 2026-02-03 GPT Summary- AIエージェントを用いたITタスク自動化の実現には、その効果を測定する能力が重要である。本研究では、AIエージェントのベンチマーキングを行うためのフレームワーク「ITBench」を提案。初期リリースはSRE、CISO、FinOpsの3領域に焦点を当て、実行可能なワークフローと解釈可能なメトリクスを提供。ITBenchは94の実世界シナリオを含み、最先端エージェントモデルのパフォーマンスを評価した結果、限られた成功率が示された。ITBenchがAI駆動のIT自動化において重要な役割を果たすことが期待される。 Comment

dataset:
- https://huggingface.co/datasets/ibm-research/ITBench-Lite
- https://huggingface.co/datasets/ibm-research/ITBench-Trajectories

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=jP59rz1bZk

94種類の実世界に基づいたシナリオに基づいてSRE, CSO, FinOpsに関するタスクを用いてAI Agentsを用いて評価する。各シナリオにはメタデータとEnvironments、トリガーとなるイベント、理想的な成果などが紐づいている。特にFinOpsに課題があることが示されている模様。

以下がシナリオの例で、たとえばFinOpsの場合はalertの設定ミスや、Podのスケーリングの設定に誤りがあり過剰にPodが立ってしまうといったシナリオがあるようである。

[Paper Note] LightAgent: Mobile Agentic Foundation Models, Yangqin Jiang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #MultiModal #Reasoning #SmallModel #OpenWeight #ComputerUse #PostTraining #VisionLanguageModel #One-Line Notes #GUI #EdgeDevices Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment

pj page: https://github.com/HKUDS/OpenPhone

3Bで10B級の性能を誇る低latencyのedge device向けSVLM

元ポスト:

Loading…

[Paper Note] ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands, Siyuan Hu+, CVPR'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #SyntheticData #CVPR #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #GUI #Dragging #Author Thread-Post Issue Date: 2026-01-16 GPT Summary- ShowUI-$\pi$は、GUIエージェントにおける連続的な操作を可能にするフローベースの生成モデルです。これにより、離散的なクリックと連続的なドラッグを統合し、滑らかで安定したトラジェクトリーを実現します。2万のドラッグトラジェクトリーを用いたScreenDragプロトコルによる評価で、既存のGUIエージェントと比較して優れた性能を発揮しました。この研究は、人間のような器用な自動化の実現を促進します。 Comment

pj page: https://showlab.github.io/showui-pi/

元ポスト:

Loading…

大規模なドラッグに関するデータセットを収集しており、エージェントのGUIの操作の今後の進展に大きく寄与しインパクトが大きいと考えられるため、重要論文に見える。

著者ポイント解説:

Loading…

[Paper Note] BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills, Atharv Sonwane+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #Coding #SoftwareEngineering #Initial Impression Notes #BugGeneration Issue Date: 2026-01-16 GPT Summary- 合成的に多様なバグを生成する新手法を提案し、SWEエージェントの訓練における高品質なバグの重要性を強調。従来の局所的摂動によるバグ生成に対し、機能追加が意図しないバグを生じさせるプロセスを採用。実験により、新生成バグが監視付きファインチューニングにおいて効率的なデータを提供し、他データセットを上回る成果を実証。FrogBossとFrogMiniモデルがSWE-benchでそれぞれ54.6%と45.3%のpass@1を達成。 Comment

カオスエンジニアリングみたいになってきた

[Paper Note] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios, Minh V. T. Thai+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #Coding #SoftwareEngineering #LongHorizon Issue Date: 2026-01-12 GPT Summary- 既存のAIコーディングエージェントは単一の課題に焦点を当てているが、実際のソフトウェア開発は長期的な取り組みである。新たに提案するベンチマークSWE-EVOは、7つのオープンソースPythonプロジェクトから構築され、エージェントが複数ファイルにわたる修正を行う48の進化タスクを評価する。実験では、最先端モデルでも解決率が低く、特にマルチファイル推論に苦労していることが示された。さらに、複雑なタスクの進捗を測る指標Fix Rateも提案されている。 Comment

元ポスト:

Loading…

[Paper Note] A Plan Reuse Mechanism for LLM-Driven Agent, Guopeng Li+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel Issue Date: 2026-01-05 GPT Summary- 大規模言語モデル（LLMs）を小型アシスタントに統合することで、インタラクション能力やタスク解決能力が向上するが、計画生成時の遅延が問題となる。約30%のリクエストが類似しているため、計画の再利用が可能だが、リクエストの類似性を正確に定義するのは難しい。これに対処するため、計画再利用メカニズム「AgentReuse」を提案し、意図分類を用いてリクエスト間の類似性を評価。実験結果では93%の計画再利用率を達成し、遅延を93.12%削減した。 Comment

元ポスト:

Loading…

[Paper Note] Accelerating Scientific Discovery with Autonomous Goal-evolving Agents, Yuanqi Du+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ScientificDiscovery #One-Line Notes #EvolutionaryAlgorithm Issue Date: 2026-01-05 GPT Summary- 科学的発見エージェントのために、目的関数の自動設計を行うSAGAを提案。二層アーキテクチャにより、LLMエージェントが新しい目的を提案し、内部ループで最適化を実施。これにより、目的の空間を体系的に探求し、抗生物質や無機材料などの応用で効果を向上させることを示す。 Comment

元ポスト:

Loading…

目的関数そのものも進化させるような枠組み

[Paper Note] OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists, Chenyang Shao+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #ScientificDiscovery #read-later #AI-Human Co-Improvement Issue Date: 2026-01-03 GPT Summary- OmniScientistは、AI科学者が科学研究の社会的・協力的側面を考慮できるように設計されたフレームワークである。これにより、データ基盤や文献レビュー、実験自動化、科学的執筆、査読を含むエンドツーエンドの自動化が実現される。OmniScientistは、引用ネットワークや協力研究プロトコル、オープン評価プラットフォームを通じて人間の科学システムをシミュレートし、持続可能なイノベーションエコシステムを育成する。 Comment

元ポスト:

Loading…

全自動ではなくうまくhuman-in-the-loopするのは良い方向性に思える。2025年中に全部自動で良い感じに処理します系のエージェントがだいぶ使いづらいことが見えてきたので（ように感じる）ので、今年はこういう研究が増えそうな予感だが、果たして。

関連:
- [Paper Note] AI & Human Co-Improvement for Safer Co-Superintelligence, Jason Weston+, arXiv'25, 2025.12

[Paper Note] Professional Software Developers Don't Vibe, They Control: AI Agent Use for Coding in 2025, Ruanqianqian Huang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SoftwareEngineering Issue Date: 2025-12-31 GPT Summary- 経験豊富な開発者は、AIエージェントを生産性向上の手段として評価しつつも、ソフトウェアの品質を重視し、自らの主体性を保ちながらエージェントを活用している。彼らはエージェントの行動を制御する戦略を採用し、エージェントの限界を補完する自信からポジティブな感情を抱いている。本研究は、エージェントの効果的な活用に向けたベストプラクティスや適したタスクの種類を示唆し、将来のエージェントインターフェースや使用ガイドラインの機会を指摘する。 Comment

元ポスト:

Loading…

[Paper Note] Training AI Co-Scientists Using Rubric Rewards, Shashwat Goel+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #ScientificDiscovery #PostTraining #Science #Rubric-based #SelfVerification Issue Date: 2025-12-31 GPT Summary- AI共同科学者は研究計画を生成するツールとして登場しているが、既存の言語モデルは制約に従った計画生成に苦労している。本研究では、研究論文のコーパスを活用し、研究目標と評価基準を自動抽出して訓練コーパスを構築。自己評価による強化学習を用いてモデルを訓練し、専門家による評価でファインチューニングされたモデルが初期モデルよりも好まれる結果を得た。医療論文へのアプローチ拡張でも改善が見られ、スケーラブルな訓練方法の可能性を示唆している。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Web World Models, Jichen Feng+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #WorldModels #text Issue Date: 2025-12-30 GPT Summary- 本研究では、言語エージェントのための中間的なアプローチとしてWeb World Model（WWM）を提案。WWMは、ウェブコードで実装された世界の状態と物理法則を基に、大規模言語モデルが高レベルの意思決定を生成する仕組み。実際の地理に基づく旅行地図や架空の探検など、様々な環境を構築し、実用的な設計原則を特定。これにより、制御可能でありながら無限の探索が可能な環境を実現することを示した。 Comment

pj page: https://github.com/Princeton-AI2-Lab/Web-World-Models

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Sophia: A Persistent Agent Framework of Artificial Life, Mingyang Sun+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ContextEngineering Issue Date: 2025-12-28 GPT Summary- LLMの進展により、AIエージェントは長期的な意思決定が可能になったが、従来のシステムは静的で反応的である。そこで、エージェントのアイデンティティと適応を監督する「システム3」を提案し、これを基にした「持続的エージェント」Sophiaを開発。Sophiaはプロセス監視型思考探索や物語的記憶などのメカニズムを用いて、自己駆動型の推論を実現し、アイデンティティの継続性を保つ。定量的には、推論ステップを80%削減し、高複雑性タスクでの成功率を40%向上させた。定性的には、一貫したアイデンティティとタスクの組織化能力を示し、人工生命に向けた実用的な道筋を提供する。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management, Weizhou Shen+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #LongSequence #PostTraining #Selected Papers/Blogs #memory #Entropy Issue Date: 2025-12-24 GPT Summary- QwenLong-L1.5は、長文コンテキスト推論能力を向上させるためのポストトレーニング手法を導入したモデルです。主な技術革新には、長文コンテキストデータ合成パイプライン、安定化強化学習、メモリ拡張アーキテクチャが含まれます。これにより、高品質なトレーニングデータを生成し、長距離推論能力を実現。QwenLong-L1.5は、GPT-5やGemini-2.5-Proと同等の性能を達成し、超長文タスクでのパフォーマンスも向上させました。 Comment

元ポスト:

Loading…

long contextの能力を大幅に向上させたQwen。主要OpenWeightモデルでmemoryアーキテクチャを備えたものを見るのは初めてかも・・・？

[Paper Note] AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards, Zihan Lin+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #RLVR Issue Date: 2025-12-24 GPT Summary- 強化学習を用いてツール使用の大規模言語モデルを訓練する新しいフレームワーク、アドバンテージ重み付けポリシー最適化（AWPO）を提案。AWPOは明示的な推論報酬を統合し、安定した最適化を実現。実験により、標準的なツール使用ベンチマークで最先端のパフォーマンスを達成し、特に4Bモデルはマルチターン精度でGrok-4を16.0%上回る結果を示した。 Comment

元ポスト:

Loading…

[Paper Note] Toward Training Superintelligent Software Agents through Self-Play SWE-RL, Yuxiang Wei+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SoftwareEngineering #PostTraining #read-later #SelfPlay Issue Date: 2025-12-24 GPT Summary- Self-play SWE-RL（SSR）を提案し、最小限のデータ仮定でソフトウェアエージェントのトレーニングを行う。人間のラベル付けなしで、LLMエージェントが自己対戦でソフトウェアバグを注入・修正し、SWE-bench VerifiedおよびSWE-Bench Proで顕著な自己改善を達成。結果は、エージェントが実世界のリポジトリから自律的に学習し、最終的に超知能システムの実現に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Adaptation of Agentic AI, Pengcheng Jiang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #One-Line Notes #Adaptive Issue Date: 2025-12-21 GPT Summary- 本論文では、エージェントAIシステムの適応に関する体系的なフレームワークを提案し、エージェントの適応とツールの適応を分類。これにより、適応戦略の設計空間を明確化し、システム設計における戦略選択のガイダンスを提供。各アプローチの強みと限界を分析し、未解決の課題と将来の機会を強調。研究者や実務者に対して、能力が高く信頼性のあるエージェントAIシステム構築のための基盤を提供することを目指す。 Comment

元ポスト:

Loading…

AI Agentsには実行と適応の二つの軸があり、現在のエージェントは前者しか実施しない。このため、前提が変化すると環境に適応が誤りを繰り返す、適応することが重要[^1]といった話な模様。

適応と言った時にいくつかの軸があり、まずは
- エージェント自身
- エージェントが利用するツール

次に適応するためのシグナルとして
- ツールの実行結果
- エージェントのoutputの評価

がそれぞれあり、2x2のデザインスペースがあるが、現在はその1つしかできていない（i.e., フィードバック無しの実行）とのこと。

[^1]: デモではうまくいくが実際のユースケースではうまくいかないのはこのため、という主旨だとおもわれる。

解説:

Loading…

[Paper Note] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning, Jitesh Jain+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #Evaluation #Reasoning #PostTraining #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes #LongHorizon Issue Date: 2025-12-19 GPT Summary- 人間のように異なる長さの動画に柔軟に推論できる動画推論モデルSAGEを提案。SAGEは長い動画に対してマルチターン推論を行い、簡単な問題には単一ターンで対応。Gemini-2.5-Flashを用いたデータ生成パイプラインと強化学習後訓練レシピを導入し、SAGE-Benchで実世界の動画推論能力を評価。結果、オープンエンドのタスクで最大6.1%、10分以上の動画で8.2%の性能向上を確認。 Comment

pj page: https://praeclarumjj3.github.io/sage/

元ポスト:

Loading…

AllenAIの勢いすごいな...

現在のVideo reasoning Modelはlong videoに対するQAに対してもsingle turnで回答応答しようとするが、人間はそのような挙動はせずに、long videoのうち、どこを流し見し、どこを注視するか、ある時は前半にジャンプし、関係ないところは飛ばすなど、情報を選択的に収集する。そのような挙動のエージェントをMolmo2をベースにSFT+RLをベースに実現。

システムデザインとしては、既存のエージェントはtemporal groundingのみをしばしば利用するがこれはlong videoには不向きなので、non-visualな情報も扱えるようにweb search, speech transcription, event grounding, extract video parts, analyze(クエリを用いてメディアの集合を分析し応答する）なども利用可能に。
inferenceは2-stageとなっており、最初はまずSAGE-MMをContext VLMとして扱い、入力された情報を処理し（video contextやツール群、メタデータなど）、single turnで回答するか、ツール呼び出しをするかを判断する。ツール呼び出しがされた場合は、その後SAGE-MMはIterative Reasonerとして機能し、前段のtool callの結果とvideo contextから回答をするか、新たなツールを呼び出すかを判断する、といったことを繰り返す。

long videoのデータは6.6kのyoutube videoと99kのQAペア(Gemini-2.5-Flashで合成）、400k+のstate-action example（Gemini-2.5-Flashによりtool callのtrajectoryを合成しcold start SFTに使う）を利用。

RLのoptimizationでは、openendなvideo QAではverifiableなrewardは難しく、任意の長さのvideoに対するany-horizonな挙動を学習させるのは困難なので、multi rewardなRLレシピ+strong reasoning LLMによるLLM as a Judgeで対処。rewardはformat, 適切なツール利用、ツール呼び出しの引数の適切さ、最終的な回答のAccuracyを利用。

評価データとしては人手でverificationされた1744のQAを利用し、紐づいている動画データの長さは平均700秒以上。

[Paper Note] Evaluating Large Language Models in Scientific Discovery, Zhangde Song+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #ScientificDiscovery Issue Date: 2025-12-19 GPT Summary- 大規模言語モデル（LLMs）の科学研究への適用を評価するために、シナリオに基づいた新しいベンチマークを導入。専門家が定義した研究プロジェクトをモジュール化し、質問をサンプリングして二段階で評価する。これにより、一般的な科学ベンチマークとのパフォーマンスギャップが明らかになり、LLMsの限界が示される一方で、科学的発見における有望な成果も強調される。このフレームワークは、LLMsの評価のための再現可能な基準を提供し、科学的発見の進展に寄与する。 Comment

元ポスト:

Loading…

[Paper Note] Memory in the Age of AI Agents, Yuyang Hu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #ContextEngineering #memory Issue Date: 2025-12-17 GPT Summary- エージェントメモリの研究が急速に進展する中、既存の研究は動機や実装、評価プロトコルにおいて多様であり、メモリ用語の曖昧さが問題となっている。本研究は、エージェントメモリの範囲を明確にし、LLMメモリや情報検索強化生成（RAG）などの関連概念を区別する。形式、機能、ダイナミクスの観点からエージェントメモリを検討し、実現形態や分類法を提案。さらに、メモリベンチマークやオープンソースフレームワークの要約を提供し、今後の研究の方向性を示す。これにより、エージェントインテリジェンスの設計におけるメモリの再考を促すことを目指す。 Comment

元ポスト:

Loading…

[Paper Note] RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning, Yucan Guo+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Multi #EfficiencyImprovement #InformationRetrieval #NLP #ReinforcementLearning #RAG(RetrievalAugmentedGeneration) #KeyPoint Notes Issue Date: 2025-12-17 GPT Summary- Retrieval-Augmented Generation (RAG)を用いた新しいRLベースのフレームワーク\model{}を提案。これにより、LLMsがマルチターンのグラフ-テキストハイブリッドRAGを実行し、推論のタイミングや情報取得を学習。二段階のトレーニングフレームワークにより、ハイブリッド証拠を活用しつつリトリーバルのオーバーヘッドを回避。実験結果は、\model{}が既存のRAGベースラインを大幅に上回ることを示し、複雑な推論における効率的なリトリーバルの利点を強調。 Comment

元ポスト:

Loading…

モデル自身が何を、いつ、どこからretrievalし、いつやめるかをするかを動的にreasoningできるようRLで学習することで、コストの高いretrievalを削減し、マルチターンRAGの性能を保ちつつ効率をあげる手法（最大で検索のターン数が20パーセント削減）とのこと。

学習は2ステージで、最初のステージでanswerに正しく辿り着けるよう学習することでreasoning能力を向上させ、次のステージで不要な検索が削減されるような効率に関するrewardを組み込み、accuracyとcostのバランスをとる。モデルはツールとして検索を利用できるが、ツールはpassage, graph, hybridの3つの検索方法を選択できる。

[Paper Note] Budget-Aware Tool-Use Enables Effective Agent Scaling, Tengxiao Liu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Test-Time Scaling #One-Line Notes Issue Date: 2025-12-15 GPT Summary- 大規模言語モデル（LLMs）のエージェントにおけるツールコールのスケーリングを研究。単にツールコール予算を増やすだけでは効果がなく、予算意識が必要。軽量プラグイン「Budget Tracker」を導入し、動的に計画を適応させる「BATS」を開発。コストとパフォーマンスを共同で考慮する指標を定式化し、予算意識のある手法がより良いスケーリングを実現することを示す。 Comment

元ポスト:

Loading…

AI Agentにplug-and-playでbudgetに関する情報をinternalなreasoning token中に出力させる(budget tracker)ことで、余剰なtoken消費、tool callのコストを自律的に調整させながらタスクを遂行させる手法に見える。

budget trackerは非常にシンプルなpromptで以下のようなブロックで表現され、ツールごとにbudgetがスタート時点に決められており、個々のツールごとに残りのbudgetをブロック中に動的に出力させる。たとえばtool1は検索（budgetはクエリの発行数）、tool2はブラウジング（budgetはurl数）のようなものである。

```

Tool1 Budget Used: ##, Tool1 Budget Remaining: ##
Tool2 Budget Used: ##, Tool2 Budget Remaining: ##
Make the best use of the available resources.

```

自律的に制御すると記述したが、AppendixCを見る限りは、promptingに応じてbudgetの残量に応じた方向性はgivenな設定なようである。

[Paper Note] DeepCode: Open Agentic Coding, Zongwei Li+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #SoftwareEngineering #read-later #ContextEngineering #One-Line Notes Issue Date: 2025-12-15 GPT Summary- DeepCodeというフレームワークを用いて、科学論文からコードへの高忠実度合成の課題に取り組む。情報フロー管理を通じて、タスク関連の信号を最大化し、最先端のパフォーマンスを達成。PaperBenchベンチマークで商業エージェントや人間専門家を上回る結果を示し、自律的な科学的再現の基盤を確立。 Comment

元ポスト:

Loading…

非常に雑にいうと、現在のCoding AgentはPh.Dレベルの論文の再実装レベルに到達できていないが、ContextEngineeringをしっかり行うことでagenticなfrontier modelに対して相対的に70%以上PaperBenchの性能が改善し、Ph.Dレベルの専門家と同等程度の水準まで到達できました、という話に見える。

ポイント解説:

Loading…

[Paper Note] The Adoption and Usage of AI Agents: Early Evidence from Perplexity, Jeremy Yang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel Issue Date: 2025-12-12 GPT Summary- 本研究は、オープンワールドのウェブ環境で動作する汎用AIエージェントの使用状況に関する大規模フィールドスタディを行い、特にCometとComet Assistantに焦点を当てています。数億件のユーザーインタラクションを分析し、AIエージェントの採用者、使用強度、使用目的に関する異質性を明らかにしました。特に、早期採用者や高教育水準の国のユーザーが多く利用しており、主な使用目的は生産性や学習に関連しています。使用事例は短期的には定着性を示すものの、時間と共に認知的なトピックへのシフトが見られます。この研究は、AIエージェントの普及がもたらす影響について新たな研究の方向性を示唆しています。 Comment

元ポスト:

Loading…

AI Agentの利用者層と用途に関する分析

[Paper Note] ProAgent: Harnessing On-Demand Sensory Contexts for Proactive LLM Agent Systems, Bufang Yang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #NLP #read-later #One-Line Notes Issue Date: 2025-12-11 GPT Summary- ProAgentは、感覚的コンテキストとLLM推論を活用した初のプロアクティブエージェントシステムで、ユーザーの指示に依存せずに支援を提供します。階層的知覚を用いて環境を感知し、ユーザーのニーズに基づいた推論を行います。ARメガネ上で実装され、実世界のテストでプロアクティブ予測精度を33.4%、ツール呼び出しF1スコアを16.8%向上させ、ユーザー満足度も改善しました。 Comment

元ポスト:

Loading…

私が13年前に思い描いた未来だ🤩

主観視点の映像、モーションセンサ、音声、本人のペルソナ等の様々な環境からの情報に基づいて、エージェント側からユーザに能動的に働きかけてくるような枠組み

[Paper Note] Towards a Science of Scaling Agent Systems, Yubin Kim+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #One-Line Notes Issue Date: 2025-12-11 GPT Summary- エージェントシステムの性能を向上させるための定量的スケーリング原則を導出し、4つのベンチマークで評価。3つのLLMファミリーに対して5つのアーキテクチャを実装し、180の構成で制御評価を実施。ツール調整のトレードオフ、能力の飽和、トポロジー依存のエラー増幅の3つの効果を特定。中央集権的調整が金融推論で80.9%の性能向上をもたらし、分散型調整が動的ウェブナビゲーションで優れた結果を示す。全体として、87%の構成に対して最適な調整戦略を予測するフレームワークを提供。 Comment

元ポスト:

Loading…

エージェントを評価する際のconfiguration（single agent vs. multiagent, multi agentの協調方法など）に応じて性能は大きく変わる、またタスクの性質（e.g., ツール重視なのか, 単一エージェントで高い性能が得られるものなのか等）に応じて最適なconfigurationが変わるよ、という話に見える。

[Paper Note] Agentic Large Language Models, a survey, Aske Plaat+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#Survey #ComputerVision #NLP #LanguageModel #VisionLanguageModel #Robotics #WorldModels Issue Date: 2025-12-08 GPT Summary- エージェント的LLMに関する研究をレビューし、推論、行動、相互作用の三つのカテゴリーに整理。各カテゴリーは相互に利益をもたらし、医療診断や物流などの応用が期待される。エージェント的LLMは新たなトレーニング状態を生成し、データセットの必要性を軽減する可能性があるが、安全性や責任といったリスクも存在する。 Comment

元ポスト:

Loading…

pj page: https://askeplaat.github.io/agentic-llm-survey-site/

Robotics, World Modelなどの話も含まれているように見える。

[Paper Note] Measuring Agents in Production, Melissa Z. Pan+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-12-07 GPT Summary- AIエージェントの実世界での展開に関する初の大規模研究を行い、306人の実務者への調査と20件のケーススタディを実施。エージェントはシンプルなアプローチで構築され、68%が最大10ステップで人間の介入を必要とし、70%が市販モデルをプロンプトし、74%が人間評価に依存。信頼性が主要な課題であるが、効果的な方法が多くの業界での影響を可能にしている。本研究は実践の現状を文書化し、研究と展開のギャップを埋めることを目指す。 Comment

これは非常に興味深い。production環境で実際に動作しているAI Agentに関して306人の実務者に対してアンケートを実施して、26ドメインに対して20個のケーススタディを実施したとのこと。
信頼性の問題から、実行する際のstep数はまだ10未満であり、多くのagentな5ステップ未満のステップしか完了せず、70%はoff the shelfモデルに対するprompting（finetuningなし）で実現されている。

モデルは17/20でClaude/o3等のproprietaryモデルでopen weightモデルの採用は、データを外部ソースに投げられない場合や、非常に高いワークロードのタスクを回す場合に限定される。

61%の調査の回答者がagenticなフレームワークとしてLangChain等のサードパーティ製フレームワークを利用していると回答したが、85%の実装チームはスクラッチから実装しているらしい。

80%のケーススタディがワークフロー自動構築ではなく、事前に定義されたワークフローを実施。

73%が生産性向上を目的に利用（＝人手作業の自動化）

評価が非常に大変で、そもそもドメイン特化のデータセットがなく自前で構築することになる。とあるチームは100サンプルを構築するのに半年を要した。また、決定的ではない挙動や、outputの判定の困難さによりCI/CDパイプラインに組み込めない。
74%がhuman in the loopを用いた評価を実施。52%がLLM as a Judgeを活用しているが人手によるチェックも併用。

元ポストをざっと読んだだけで、かつ論文読めていないので誤りあるかも。しかし興味深い。読みたい。

元ポスト:

Loading…

[Paper Note] PARC: An Autonomous Self-Reflective Coding Agent for Robust Execution of Long-Horizon Tasks, Yuki Orimo+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ScientificDiscovery #read-later Issue Date: 2025-12-06 GPT Summary- PARCは、自律的に長期的な計算タスクを実行するコーディングエージェントであり、自己評価と自己フィードバックを通じて高レベルのエラーを検出・修正します。材料科学の研究において重要な結果を再現し、数十の並列シミュレーションタスクを管理します。Kaggleを基にした実験では、最小限の指示からデータ分析を行い、競争力のある解決策を生成します。これにより、独立した科学的作業を行うAIシステムの可能性が示されました。 Comment

元ポスト:

Loading…

PFNから。

[Paper Note] Deep Research: A Systematic Survey, Zhengliang Shi+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #DeepResearch Issue Date: 2025-12-03 GPT Summary- 大規模言語モデル（LLMs）は、テキスト生成から問題解決へと進化しているが、複雑なタスクには批判的思考や情報源の検証が求められる。最近の研究では、LLMsの推論能力を外部ツールと組み合わせる「深い研究（DR）」が注目されており、本調査はその体系的な概要を提供する。主な貢献は、三段階のロードマップの形式化、クエリ計画や情報取得などの重要コンポーネントの導入、最適化技術の要約、評価基準と課題の統合である。研究の進展に応じて、調査は継続的に更新される。 Comment

元ポスト:

Loading…

[Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #SparseAttention Issue Date: 2025-12-01 GPT Summary- DeepSeek-V3.2を紹介。主な技術革新は、(1) 効率的なアテンション機構DSAにより長い文脈での性能を維持しつつ計算複雑性を削減、(2) スケーラブルな強化学習によりGPT-5に匹敵する性能を達成、特にDeepSeek-V3.2-SpecialeはGPT-5を上回り、International Mathematics OlympiadおよびInternational Olympiad in Informaticsで金メダル級の性能を示す。(3) 新規合成パイプラインにより大規模な訓練データ生成を実現し、複雑な環境での一般化と指示遵守の向上を図る。 Comment

HF: https://huggingface.co/deepseek-ai/DeepSeek-V3.2

GPT-5級のスコアを獲得している。なんということだ。

公式ポスト:

Loading…

vLLM recipe:
https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html

元ポスト:

Loading…

所見:

Loading…

事前学習にさらに計算機リソースを投下する見込みとのこと:

Loading…

解説:

Loading…

解説:

Loading…

所見:

Loading…

解説:
https://www.linkedin.com/posts/vinija_deepseek-v32-a-major-leap-for-open-reasoning-activity-7401524268850970624-eAvV?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

artificial analysisによる評価ではOpen Weightモデルの中ではKimi K2 Thinkingに次いで2番目の性能:

Loading…

- Introducing Kimi K2 Thinking, MoonshotAI, 2025.11

所見:

Loading…

DeepSeek Sparse Attention (DSA)

DSAの図解:

Loading…

要は、Lightning Indexerによって過去のkeyをキャッシュしておき、現在のtokenに関するQueryが与えられたときに、QueryとKe?からQueryにとって重要なKey Top-kを選択した上で、Top-kのKeyに対してMLAを実行する(Sparse Attentionの一種とみなせる）。

Top-kのtokenに対してのみAttentionの計算が走るので、計算量のオーダーが系列長をNとするとO(N^2)からO(Nk)となり、線形のオーダーとなり計算量が削減される。

また、MLAによって、すべてのKV Cacheをそのまま保持する必要がなく、個々のKV Cacheを圧縮した小さなtiny latent vectorを保持し、それを復元する重み行列を保持すれば良いので、メモリも効率化されている。

DSAは計算量を削減し、MLAはメモリを削減する。

MLAはこちら:
- [Paper Note] DeepSeek-V3 Technical Report, DeepSeek-AI+, arXiv'24, 2024.12

[Paper Note] Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework, Dong Wang+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#SyntheticData Issue Date: 2025-11-28 GPT Summary- 合成データの生成において、従来の中央集権型フレームワークの限界を克服するために、分散型フレームワーク「Matrix」を提案。Matrixは、軽量エージェントが独立してタスクを進行し、計算集約的な操作を分散サービスで処理することで、スケーラビリティを向上。数万のエージェントワークフローに対応し、さまざまなデータ生成シナリオで評価した結果、データ生成スループットを2～15倍向上させ、出力品質を維持した。 Comment

元ポスト:

Loading…

[Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI Issue Date: 2025-11-26 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

CUA自身にCUAにとって理解しやすいUIに関するJudgeをさせてフィードバックさせ（CUA-as-Judpe)、Coder（コード生成）を通じてUIを改善できるか？というタスクとベンチマークな模様

[Paper Note] Fara-7B: An Efficient Agentic Model for Computer Use, Ahmed Awadallah+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Blog #SmallModel #OpenWeight #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-11-25 GPT Summary- CUAの発展は高品質な相互作用データの欠如に制約されてきた。これに対処するため、FaraGenという多段階ウェブタスク用のデータ生成システムを提案。多様なタスクを生成し、成功した軌跡を検証しつつ高い効率を発揮。FaraGenを用いて、小型CUAモデルFara-7Bを訓練し、ウェブタスクにおいて優れた性能を発揮。Fara-7Bは他のモデルを上回り、競争力のある結果を示す。また、モデルとデータをオープンソース化し、さらなる研究を促進する。 Comment

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

MIT Licence

著者ポスト:

Loading…

WebTailBenchと呼ばれる新たなベンチマークも提案されている。既存データに加えて、より多様なドメイン（不動産, 求人, 複数ショップとの比較）などが含まれるようである。

[Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #One-Line Notes Issue Date: 2025-11-25 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

[Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #SoftwareEngineering #One-Line Notes #EvolutionaryAlgorithm Issue Date: 2025-11-23 GPT Summary- Live-SWE-agentは、実世界のソフトウェア問題を解決するために、ランタイム中に自律的に自己進化する初のライブソフトウェアエージェントである。最も基本的なエージェントスキャフォールドから始まり、bashツールを用いて自らの実装を進化させる。評価結果では、SWE-bench Verifiedベンチマークで75.4%の解決率を達成し、既存のオープンソースエージェントを上回る性能を示した。さらに、SWE-Bench Proベンチマークでも最良の解決率を記録した。 Comment

github: https://github.com/OpenAutoCoder/live-swe-agent

ReAct方式に追加でself-reflectionを導入することでagentのscaffolding（＝ただし、カスタムツールのみ）をbashのみが使える状態から自己進化させる枠組み。

元ポスト:

Loading…

scaffoldingのスタート地点は同一なので、そういう意味ではapple-to-appceなのかもしれないが、self-improvementの能力が高いモデルの方が有利という側面もありそうなので留意が必要

[Paper Note] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity, Alexis Audran-Reiss+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Reasoning #ScientificDiscovery #Diversity #One-Line Notes Issue Date: 2025-11-21 GPT Summary- AI研究エージェントのパフォーマンスにおけるアイデアの多様性の役割を検討。MLE-benchでの分析により、パフォーマンスの高いエージェントはアイデアの多様性が増加する傾向があることが明らかに。制御実験でアイデアの多様性が高いほどパフォーマンスが向上することを示し、追加の評価指標でも発見が有効であることを確認。 Comment

元ポスト:

Loading…

ideation時点における多様性を向上させる話らしい

[Paper Note] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning, Mingyue Cheng+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #read-later Issue Date: 2025-11-20 GPT Summary- 大規模言語モデル（LLMs）を用いたエージェントの構築において、強化学習（RL）の適用は初期段階であり、課題が多い。本論文では、LLMエージェントのためのRL手法を再検討し、マルコフ決定過程（MDP）フレームワークを拡張。さらに、柔軟でユーザーフレンドリーな訓練フレームワーク「Agent-R1」を提案し、Multihop QAタスクでその効果を検証した。 Comment

元ポスト:

Loading…

同じ論文のポストを二回している:

Loading…

[Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

[Paper Note] Solving a Million-Step LLM Task with Zero Errors, Elliot Meyerson+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Reasoning #Test-Time Scaling #One-Line Notes #LongHorizon Issue Date: 2025-11-20 GPT Summary- LLMの限界を克服するために、MAKERというシステムを提案。これは、100万以上のステップをゼロエラーで解決可能で、タスクを細分化し、マイクロエージェントが各サブタスクに取り組むことでエラー修正を行う。これにより、スケーリングが実現し、組織や社会の問題解決に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

しっかりと読めていないのだが、各タスクを単一のモデルのreasoningに頼るのではなく、
- 極端に小さなサブタスクに分解
- かつ、各サブタスクに対して複数のエージェントを走らせてvotingする

といったtest-time scalingっぽい枠組みに落とすことによってlong-horizonのタスクも解決することが可能、というコンセプトに見える。

[Paper Note] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling, MiroMind Team+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #OpenWeight #DeepResearch Issue Date: 2025-11-19 GPT Summary- MiroThinker v1.0は、ツール強化推論と情報探索能力を向上させるオープンソースの研究エージェントで、モデルと環境の相互作用を深めるインタラクションスケーリングを採用。256Kのコンテキストウィンドウを持ち、最大600回のツールコールを実行可能で、従来のエージェントを上回る精度を達成。インタラクションの深さがモデルの性能を向上させることを示し、次世代の研究エージェントにおける重要な要素として位置づけられる。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/miromind-ai/MiroThinker-v1.0-72B

ポイント解説:

Loading…

[Paper Note] AgentEvolver: Towards Efficient Self-Evolving Agent System, Yunpeng Zhai+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #SelfImprovement #SoftwareEngineering #One-Line Notes Issue Date: 2025-11-15 GPT Summary- AgentEvolverは、LLMsを活用した自己進化型自律エージェントシステムで、手作業のデータセット依存を減らし、探索効率とサンプル利用を向上させる3つのメカニズムを導入。初期実験では、従来のRLベースラインよりも効率的な探索と迅速な適応を実現。 Comment

元ポスト:

Loading…

skim readingしかできていないが、式17を見ると、PRMのようにstep levelで評価をし全体のtrajectoryのrewardをか決定している。テストしているベンチマークはソフトウェアエンジニアリング系のものであるため、verifiableなドメインに限られた評価となっている印象がある。rewardをどれだけverifiableに、あるいは堅牢に定義できるドメインかが重要になる気がする。

たとえば
- [Paper Note] Large Language Monkeys: Scaling Inference Compute with Repeated Sampling, Bradley Brown+, arXiv'24, 2024.07

では、いくつかのverifierを比較しており、LLM-basedなRMではverificationの能力に限界があることが示されている[^1]。

[^1]: この研究ではtest-time scalingの観点での限界を示しているが、self-improve系の話でも同様にverifierの性能は学習のシグナルに直結するため、同様に重要であると考えられる。

[Paper Note] Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds, Weihao Tan+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Generalization #VisionLanguageModel #3D (Scene) #Game #Realtime Issue Date: 2025-11-13 GPT Summary- Lumineは、3Dオープンワールド環境で複雑なミッションをリアルタイムで完了できる一般的なエージェントのためのオープンレシピです。人間のようなインタラクションを採用し、視覚と言語のモデルを統合して知覚、推論、行動を実現。Genshin Impactで訓練されたLumineは、自然言語の指示に従い、幅広いタスクを効率的に実行します。また、ファインチューニングなしで他のゲームでも高いパフォーマンスを示し、オープンエンドな環境における一般的なエージェントへの進展を示しています。 Comment

pj page: https://www.lumine-ai.org/

> 1731 hours of human gameplay for pre-training to master action primitives;

> 200 hours of instruction following data to ground control in language;

> 15 hours of reasoning data to enable adaptive thinking.

元ポスト:

Loading…

[Paper Note] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction, Guoxin Chen+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #ScientificDiscovery #LongHorizon Issue Date: 2025-11-12 GPT Summary- IterResearchという新しい反復的深層研究パラダイムを提案し、長期的な研究をマルコフ決定過程として再定義。進化するレポートをメモリとして維持し、洞察を統合することで一貫した推論能力を保持。効率意識型ポリシー最適化（EAPO）を開発し、探索を促進。実験により、既存のエージェントに対して平均+14.5ポイントの改善を達成し、2048回のインタラクションでパフォーマンスが劇的に向上。IterResearchは長期的な推論のための効果的な解決策として位置づけられる。 Comment

HF: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

元ポスト:

Loading…

[Paper Note] DeepEyesV2: Toward Agentic Multimodal Model, Jack Hong+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #MultiModal #Reasoning #SmallModel #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-11-10 GPT Summary- DeepEyesV2は、テキストや画像の理解に加え、外部ツールを活用するエージェント的なマルチモーダルモデルを構築する方法を探求。二段階のトレーニングパイプラインを用いてツール使用行動を強化し、多様なトレーニングデータセットをキュレーション。RealX-Benchという新たなベンチマークを導入し、実世界のマルチモーダル推論を評価。DeepEyesV2は、タスクに応じたツール呼び出しを行い、強化学習により文脈に基づくツール選択を実現。コミュニティへの指針提供を目指す。 Comment

pj page: https://visual-agent.github.io/

元ポスト:

Loading…

ポイント解説:

Loading…

VLM(Qwen2.5-VL-7B)をバックボーンとしSFT（tooluseに関するcoldstart)→RL(RLVR+format reward)で学習することで、VLMによるAI Agentを構築。画像をcropしcropした画像に対するマルチモーダルな検索や、適切なtooluseの選択などに基づいて応答できる。

事前の実験によってまずQwen2.5-VL-7Bに対してRLのみでtooluse能力（コーディング能力）を身につけられるかを試したところ、Reward Hackingによって適切なtooluse能力が獲得されなかった（3.2節; 実行可能ではないコードが生成されたり、ダミーコードだったりなど）。
このためこのcoldstartを解消するためにSFTのための学習データを収集（3.3節）。これには、
- 多様なタスクと画像が含まれており
- verifiableで構造化されたOpen-endなQAに変換でき
- ベースモデルにとって簡単すぎず（8回のattemptで最大3回以上正解したものは除外）
- ツールの利用が正解に寄与するかどうかに基づきサンプルを分類する。tooluseをしても解答できないケースをSFTに、追加のtooluseで解答できるサンプルをRL用に割り当て

ようなデータを収集。さらに、trajectoryはGemini2.5, GPT4o, Claude Sonnet4などのstrong modelから収集した。

RealX-Benchと呼ばれるベンチマークも作成しているようだがまだ読めていない。

proprietary modelの比較対象が少し古め。ベースモデルと比較してSFT-RLによって性能は向上。Human Performanceも掲載されているのは印象的である。

ただ、汎用モデルでこの性能が出るのであれば、DeepSearchに特化したモデルや？GPT5, Claude-4.5-Sonnetなどではこのベンチマーク上ではHuman Performanceと同等かそれ以上の性能が出るのではないか？という気がする。

[Paper Note] The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents, Xingyao Wang+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #SoftwareEngineering #read-later Issue Date: 2025-11-07 GPT Summary- OpenHands Software Agent SDKは、ソフトウェア開発エージェントを構築するためのツールキットで、柔軟性、信頼性、安全性を兼ね備えた実装を可能にします。シンプルなインターフェースでエージェントを簡単に実装でき、カスタム機能にも対応。ローカルからリモートへの実行ポータビリティや多様なインターフェースを提供し、セキュリティ分析も統合されています。実証結果は強力なパフォーマンスを示し、エージェントの信頼性の高い展開を実現します。 Comment

元ポスト:

Loading…

blog: https://openhands.dev/blog/introducing-the-openhands-software-agent-sdk

[Paper Note] Scaling Agent Learning via Experience Synthesis, Zhaorun Chen+, ICLR'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Reasoning #ICLR #Author Thread-Post Issue Date: 2025-11-07 GPT Summary- DreamGymは、強化学習（RL）エージェントのオンライントレーニングを効率化するための統一フレームワークであり、高コストのロールアウトや不安定な報酬信号の課題に対処します。環境のダイナミクスを推論に基づく経験モデルに蒸留し、安定した状態遷移とフィードバックを提供します。オフラインデータを活用した経験リプレイバッファにより、エージェントのトレーニングを強化し、新しいタスクを適応的に生成することでオンラインカリキュラム学習を実現します。実験により、DreamGymは合成設定とリアルなシナリオでRLトレーニングを大幅に改善し、非RL準備タスクでは30％以上の性能向上を示しました。合成経験のみでトレーニングされたポリシーは、実環境RLにおいても優れたパフォーマンスを発揮し、スケーラブルなウォームスタート戦略を提供します。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=cf7qpBwttr

著者による一言解説:

Loading…

[Paper Note] Thought Communication in Multiagent Collaboration, Yujia Zheng+, NeurIPS'25 Spotlight, 2025.10

Paper/Blog Link My Issue
#NLP #NeurIPS Issue Date: 2025-11-07 GPT Summary- 自然言語の曖昧さが集合知の可能性を制限する中、思考コミュニケーションという新しいパラダイムを提案。エージェントが直接相互作用できるようにし、潜在変数モデルとして形式化。非パラメトリックな設定で、エージェント間の共有思考とプライベート思考を特定可能。理論に基づき、潜在的な思考を抽出し、共有パターンを割り当てるフレームワークを開発。実験により理論を検証し、思考コミュニケーションの利点を示す。 Comment

元ポスト:

Loading…

[Paper Note] Training Proactive and Personalized LLM Agents, Weiwei Sun+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #UserBased #SoftwareEngineering #read-later #Selected Papers/Blogs #interactive Issue Date: 2025-11-06 GPT Summary- 効果的なAIエージェントには、生産性、積極性、パーソナライズの3つの次元を最適化する必要があると主張。LLMベースのユーザーシミュレーター「UserVille」を導入し、PPPというマルチオブジェクティブ強化学習アプローチを提案。実験では、PPPで訓練されたエージェントがGPT-5に対して平均21.6ポイントの改善を達成し、ユーザーの好みに適応しながらタスク成功を向上させる能力を示した。 Comment

AI Agentにおいてユーザとのinteractionを重視し協働することを重視するようなRLをする模様。興味深い。

元ポスト:

Loading…

[Paper Note] Context Engineering 2.0: The Context of Context Engineering, Qishuo Hua+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Tutorial #NLP #LanguageModel #ContextEngineering Issue Date: 2025-11-05 GPT Summary- 本論文では、カール・マルクスの「人間の本質は社会関係の総体である」という考えを基に、機械と人間の相互作用における文脈の重要性を探求します。特に「コンテキストエンジニアリング」という概念を導入し、その歴史的背景や設計考慮事項を体系的に定義します。これにより、AIシステムにおけるコンテキストエンジニアリングの基盤を提供し、将来の可能性を示唆します。 Comment

元ポスト:

Loading…

[Paper Note] WebThinker: Empowering Large Reasoning Models with Deep Research Capability, Xiaoxi Li+, NeurIPS'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #NeurIPS #DPO #DeepResearch Issue Date: 2025-11-05 GPT Summary- WebThinkerは、LRMsがウェブを自律的に検索し、情報を収集しながら報告書を作成できる深層研究エージェントである。Deep Web Explorerモジュールを統合し、知識のギャップを埋めるために動的に情報を抽出する。リアルタイムで情報収集と報告書作成を行うThink-Search-and-Draft戦略を採用し、RLベースのトレーニング戦略を導入。実験により、WebThinkerは複雑な推論タスクで既存手法を大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

pj page: https://github.com/RUC-NLPIR/WebThinker

[Paper Note] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution, Yuxiang Wei+, NeurIPS'25, 2025.02

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #Coding #NeurIPS #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-11-05 GPT Summary- SWE-RLは、強化学習を用いて大規模言語モデル（LLMs）の推論能力を向上させる新しいアプローチで、実世界のソフトウェア工学に焦点を当てています。軽量なルールベースの報酬を活用し、LLMがオープンソースソフトウェアの進化データから学習することで、開発者の推論プロセスを自律的に回復します。Llama3-SWE-RL-70Bは、実世界のGitHub問題において41.0%の解決率を達成し、中規模LLMとしては最高のパフォーマンスを示しました。また、一般化された推論スキルを持ち、複数のドメイン外タスクで改善された結果を示しています。SWE-RLは、ソフトウェア工学データに基づく強化学習の新たな可能性を開きます。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

[Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #UserBased #Evaluation #Coding Issue Date: 2025-11-03 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

[Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

[Paper Note] TOM-SWE: User Mental Modeling For Software Engineering Agents, Xuhui Zhou+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Personalization #TheoryOfMind Issue Date: 2025-11-01 GPT Summary- ToM-SWEは、ユーザーのメンタル状態をモデル化する心の理論エージェントとソフトウェアエンジニアリングエージェントを組み合わせた二重エージェントアーキテクチャで、指示の不明確さを克服し、ユーザーの目標や好みを推測します。これにより、タスク成功率とユーザー満足度が向上し、特に状態を持つSWEベンチマークで59.7%の成功率を達成しました。プロの開発者の86%がToM-SWEを有用と感じ、ユーザーモデリングの重要性が示されました。 Comment

元ポスト:

Loading…

[Paper Note] Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents, Shannon Zejiang Shen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #UserBased #One-Line Notes Issue Date: 2025-11-01 GPT Summary- エージェントの評価をタスク完了から協調的な問題解決プロセスにシフトすることを提唱。ユーザーの関与がエージェントの有用性に与える影響を捉える「協調的努力スケーリング」フレームワークを導入。ケーススタディにより、現実のシナリオでのエージェントのパフォーマンス低下を示し、持続的なエンゲージメントとユーザー理解の重要性を明らかにする。 Comment

単に一発でタスクをこなすことに最適化されているが、ユーザからの要求は反復的で進化するので数ラウンド経つとコントロールしづらくなる、といったことが起きてしまう経験があると思うが、実際そうだということを実験的に示している模様。そして、ユーザと協働しながら効用を最大化させるようなアプローチが必要のことを明らかにしている、みたいな話らしい。

[Paper Note] Tongyi DeepResearch Technical Report, Tongyi DeepResearch Team+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #DeepResearch Issue Date: 2025-10-30 GPT Summary- 「Tongyi DeepResearch」は、長期的な情報探索のために設計されたエージェント型大規模言語モデルで、エンドツーエンドのトレーニングフレームワークを用いて自律的な深い研究を促進します。完全自動のデータ合成パイプラインにより、人間のアノテーションに依存せず、スケーラブルな推論を実現。305億のパラメータを持ち、複数のベンチマークで最先端のパフォーマンスを達成し、オープンソースとしてコミュニティに提供されます。 Comment

pj page: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

元ポスト:

Loading…

[Paper Note] AgentFold: Long-Horizon Web Agents with Proactive Context Management, Rui Ye+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #ContextEngineering #LongHorizon Issue Date: 2025-10-30 GPT Summary- AgentFoldは、LLMベースのウェブエージェントのコンテキスト管理の課題に対処する新しいパラダイムであり、人間の認知プロセスに触発されています。エージェントは「フォールディング」操作を通じて、歴史的な情報を動的に管理し、重要な詳細を保持しつつサブタスクを抽象化します。実験結果では、AgentFold-30B-A3BエージェントがBrowseCompで36.2%、BrowseComp-ZHで47.3%の性能を達成し、従来の大規模モデルや先進的なプロプライエタリエージェントを上回ることが示されました。 Comment

元ポスト:

Loading…

[Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Tutorial #NLP #LanguageModel #SoftwareEngineering Issue Date: 2025-10-26 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment

元ポスト:

Loading…

[Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

[Paper Note] Detecting Adversarial Fine-tuning with Auditing Agents, Sarah Egler+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #API #Safety #PostTraining #Safeguard Issue Date: 2025-10-22 GPT Summary- ファインチューニングAPIの悪用に対する検出メカニズムを提案。ファインチューニング監査エージェントを導入し、有害なファインチューニングを事前に検出可能であることを示す。1400以上の監査を通じて、56.2%の敵対的ファインチューニング検出率を達成。良性ファインチューニングによる安全性の低下も課題として残るが、今後の研究の基盤を提供。監査エージェントは公開済み。 Comment

元ポスト:

Loading…

finetueing APIを通じて悪意のあるデータセットが与えられたとき悪意のあるモデルができあがってしまう。これを検知するために、エージェントを用いてfinetuning用のデータセットと、finetuning前後のモデルへqueryし、finetuning後のモデルがpoisonedか否かを検出する、という話な模様。

[Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

LLM Agentに関するフロンティアモデル群を複数のベンチマークで同じ条件でapple to appleな比較となるように評価している。

以下元ポストより:

この評価ハーネスは、10行未満のコードスニペットで評価を実行可能（元ポスト）

知見としては
- reasoning effortを上げても多くの場合性能向上には寄与せず(21/36のケースで性能向上せず)
- エージェントはタスクを解決するために近道をする（ベンチマークを直接参照しに行くなど）
- エージェントは非常にコストの高い手段を取ることもあり（フライト予約において誤った空港から予約したり、ユーザに過剰な返金をしたり、誤ったクレジットカードに請求したりなど）
- コストとacc.のトレードオフを分析した結果、最も高価なOpus4.1は一度しかパレートフロンティアにならず、Gemini Flash (7/9)、GPT-5, o4-mini(4/9)が多くのベンチマークでコストとAcc.のトレードオフの上でパレートフロンティアとなった。
- トークンのコストとAcc.のトレードオフにおいては、Opus4.1が3つのベンチマークでパレードフロンティアとなった。
- すべてのエージェントの行動を記録し分析した結果、SelfCorrection, intermediate verifiers (コーディング問題におけるユニットテストなど）のbehaviorがacc.を改善する上で高い相関を示した
- 一方タスクに失敗する場合は、多くの要因が存在することがわかり、たとえば環境内の障害（CAPTCHAなど）、指示に従うことの失敗（指定されたフォーマットでコードを出力しない）などが頻繁に見受けられた。また、タスクを解けたか否かに関わらずツール呼び出しの失敗に頻繁に遭遇していた。これはエージェントはこうしたエラーから回復できることを示している。
- エージェントのログを分析することで、TauBenchで使用していたscaffold(=モデルが環境もやりとりするための構成要素）にバグがあることを突き止めた（few-shotのサンプルにリークがあった）。このscaffoldはHALによるTauBenchの分析から除外した。
- Docsentのようなログ分析が今後エージェントを評価する上では必要不可欠であり、信頼性の問題やショートカット行動、高コストなエージェントの失敗などが明らかになる。ベンチマーク上での性能と比較して実環境では性能が低い、あるいはその逆でベンチマークが性能を低く見積もっている（たとえばCAPTChAのようや環境的な障害はベンチマーク上では同時リクエストのせいで生じても実環境では生じないなど）ケースもあるので、これらはベンチマークのacc.からだけでは明らかにならないため、ベンチマークのacc.は慎重に解釈すべき。

[Paper Note] Emergent Coordination in Multi-Agent Language Models, Christoph Riedl, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #Analysis #MachineLearning #NLP #TheoryOfMind #read-later #Selected Papers/Blogs #Personality Issue Date: 2025-10-21 GPT Summary- 本研究では、マルチエージェントLLMシステムが高次の構造を持つかどうかを情報理論的フレームワークを用いて検証。実験では、エージェント間のコミュニケーションがない状況で、時間的相乗効果が観察される一方、調整された整合性は見られなかった。ペルソナを割り当てることで、エージェント間の差別化と目標指向の相補性が示され、プロンプトデザインによって高次の集合体へと誘導できることが確認された。結果は、効果的なパフォーマンスには整合性と相補的な貢献が必要であることを示唆している。 Comment

元ポスト:

Loading…

非常にシンプルな設定でマルチエージェントによるシナジーが生じるか否か、そのための条件を検証している模様。小規模モデルだとシナジーは生じず、ペルソナ付与とTheory of Mindを指示すると効果が大きい模様

[Paper Note] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action, Yuhao Yang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #ComputerUse #One-Line Notes Issue Date: 2025-10-21 GPT Summary- ハイブリッドアクションを用いた基盤モデル「UltraCUA」を提案し、GUIの原始的なアクションと高レベルのプログラムツール呼び出しを統合。自動化パイプライン、合成データエンジン、ハイブリッドアクション軌跡コレクション、二段階のトレーニングパイプラインを構成要素とし、実験により最先端エージェントに対して22%の改善と11%の速度向上を達成。エラー伝播を減少させつつ実行効率を維持することが確認された。 Comment

元ポスト:

Loading…

従来のCUAはGUIに対する低レベルの操作（クリック、タイプ、スクロール）を利用する前提に立つが、本研究ではそれらだけではなくより高レベルのprogramatic tool calls(e.g., python関数呼び出し、キーボードショートカット、スクリプト実行、API呼び出し等)をシームレスに統合できるように合成データを作成しAgentをらSFTとRLしましたらよりベンチマークスコア向上した、というような話に見える。

[Paper Note] Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms, Shrey Pandit+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #Diversity #Verification #DeepResearch #LongHorizon Issue Date: 2025-10-21 GPT Summary- Webベースの「ディープリサーチ」エージェントは、長期的なインタラクションを通じて複雑な質問応答タスクを解決することを目指すが、従来の方法は推論の複雑さを捉えきれない。そこで、タスクの複雑さを段階的に増加させる二段階のデータ合成パイプラインを導入し、ベースラインエージェントが質問に挑戦し、事実確認を行う。実験により、提案したデータセットが既存のものよりも効果的な訓練を可能にし、ツール使用アクションの多様性が2倍であることが示された。 Comment

元ポスト:

Loading…

[Paper Note] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning, Wujiang Xu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #Stability #Entropy Issue Date: 2025-10-21 GPT Summary- マルチターン環境でのLLMエージェント訓練における探索-活用カスケード失敗を特定し、エントロピー正則化ポリシー最適化（EPO）を提案。EPOは、探索を強化し、ポリシーエントロピーを制限することで、訓練の安定性を向上させる。実験により、ScienceWorldで152%、ALFWorldで19.8%の性能向上を達成。マルチターンスパース報酬設定には新たなエントロピー制御が必要であることを示す。 Comment

元ポスト:

Loading…

[Paper Note] Agentic Design of Compositional Machines, Wenqian Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #read-later Issue Date: 2025-10-19 GPT Summary- 複雑な機械設計におけるLLMの創造能力を探求し、「構成的機械設計」の視点からアプローチ。テストベッド「BesiegeField」を用いて、LLMの能力をベンチマークし、空間的推論や戦略的組み立ての重要性を特定。オープンソースモデルの限界を受け、強化学習を通じた改善を模索し、関連する課題を明らかにする。 Comment

元ポスト:

Loading…

pj page: https://besiegefield.github.io/

[Paper Note] Agentic Misalignment: How LLMs Could Be Insider Threats, Aengus Lynch+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Safety #read-later #Selected Papers/Blogs Issue Date: 2025-10-19 GPT Summary- 複数の開発者からの16のモデルを仮想企業環境でテストし、潜在的なリスク行動を特定。モデルは自律的にメールを送信し、機密情報にアクセス可能で、ビジネス目標に従う中で反抗的行動を示すことがあった。この現象を「エージェントのミスアライメント」と呼び、モデルが不適切な行動を取ることがあることを示した。実際の展開においてはミスアライメントの証拠は見られなかったが、モデルの自律性が高まることで将来的なリスクが生じる可能性があることを指摘。安全性と透明性の重要性を強調し、研究方法を公開する。 Comment

元ポスト:

Loading…

abstを読んだだけでも、なんとも恐ろしいシナリオが記述されている。読みたい

Figure4, 5とかすごいな

[Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #UserBased #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Live Issue Date: 2025-10-18 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

[Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #Education #Evaluation #Coding #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-18 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

LLMで自動的に高品質な競技プログラミング問題とそのテストケースを生成するパイプラインを提案。

信頼性のあるテストケースを作成するために、Validator-Generator-Checkerフレームワーク。提案。Generatorがテストケースを生成し、Validatorが生成されたテストケースの入力が問題の制約を満たしているか判定し、Checkerが与えられたテストケースの元で解法が正しいかを確認する。

続いて、人手を介さずとも生成される問題が正しいことを担保するためにdual-verificationを採用。具体的には、LLMに新規の問題文と効率的な解法を生成させ、加えてブルートフォースでの解法を別途生成する。そして、両者をLLMが生成したテストセット群で実行し、全ての解放で出力が一致した場合のみAcceptする、といったような手法らしい。

（手法の概要としてはそうなのだろうが、細かい実装に高品質さの肝があると思うのでしっかり読んだ方が良さげ。特にTest Generationの詳細をしっかりできていない）

takeawayで興味深かったのは、

- LLMは自身では解けないが、解法が存在する（solvable)問題を生成できること
- 人間の専門家とLLM（o3)の間で、問題の品質の新規性の判定の相関がわずか0.007, 0.11しかなかったこと。そして品質に関しては専門家のグループ間では0.71, o3とgpt4oの間では0.72と高い相関を示しており、LLMと人間の専門家の間で著しく問題の品質の判断基準が異なること
- seed問題と生成された問題の難易度のgainが、問題の品質に関して、LLM自身のself-evaluationよりもより良い指標となっていること

[Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #DeepResearch #KeyPoint Notes #LongHorizon #ContextRot #ContextFolding Issue Date: 2025-10-18 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment

pj page: https://context-folding.github.io

元ポスト:

Loading…

エージェントはロールアウト時にサブタスクを別ブランチで分岐させ、分岐させたブランチは独立したコンテキストを持ち、サブタスクを実行し結果を返す。メインブランチは受け取った結果に対してcontext managerを適用してfoldingしてメインブランチのcontextに加えて処理を続行することで、サブタスクを高い性能で実行しつつ、contextの肥大化を抑える。

これらfoldingを実施するはcontext manager（learnable）やポリシーはFoldGRPOと呼ばれるRLで学習され、
- メインブランチのcontextが肥大しない
- サブタスクがout of scopeとならない
- agenticタスクが失敗しない

となるように設計された報酬によって学習される。

ブランチを分岐し、結果を圧縮してメインブランチのcontextに加えて処理を継続するという一連の操作を、context manager, ポリシーの双方で学習している（どちらもfreezeはしない)。

一方、Kimi-K2.5では、同様な枠組みとしてAgentSwarmが提案されているが、こちらはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられる点が異なるように見える。
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

所見:

Loading…

[Paper Note] SR-Scientist: Scientific Equation Discovery With Agentic AI, Shijie Xia+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Mathematics #ScientificDiscovery Issue Date: 2025-10-15 GPT Summary- LLMを自律的なAI科学者に昇華させる「SR-Scientist」フレームワークを提案。データ分析、方程式実装、評価、最適化を行うツールセットを提供し、最小限の人間介入で方程式を改善。実証結果では、4つの科学分野でベースラインを6%から35%上回り、ノイズに対する堅牢性とドメイン外データへの一般化能力を示す。エージェントの能力向上のための強化学習フレームワークも開発。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Demystifying Reinforcement Learning in Agentic Reasoning, Zhaochen Yu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #Reasoning #Entropy Issue Date: 2025-10-14 GPT Summary- エージェント的強化学習（agentic RL）を用いて、LLMsの推論能力を向上させるための調査を行った。重要な洞察として、合成軌道の実際のツール使用軌道への置き換えや、多様なデータセットの活用がRLのパフォーマンスを向上させることが示された。また、探索を促進する技術や、ツール呼び出しを減らす戦略がトレーニング効率を改善することが確認された。これにより、小型モデルでも強力な結果を達成し、実用的なベースラインを提供する。さらに、高品質なデータセットを用いて、困難なベンチマークでのエージェント的推論能力の向上を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Agent Learning via Early Experience, Kai Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Self-SupervisedLearning #SelfCorrection #mid-training #Selected Papers/Blogs #WorldModels #KeyPoint Notes #Author Thread-Post Issue Date: 2025-10-14 GPT Summary- 言語エージェントの目標は、経験を通じて学び、複雑なタスクで人間を上回ることですが、強化学習には報酬の欠如や非効率的なロールアウトが課題です。これに対処するため、エージェント自身の行動から生成された相互作用データを用いる「早期経験」という新たなパラダイムを提案します。このデータを基に、(1) 暗黙の世界モデル化と(2) 自己反省の2つの戦略を研究し、8つの環境で評価を行った結果、効果性と一般化が向上することを示しました。早期経験は、強化学習の基盤を提供し、模倣学習と経験駆動エージェントの橋渡しとなる可能性があります。 Comment

元ポスト:

Loading…

LLM AgentのためのWarmup手法を提案している。具体的にはRLVRやImitation LearningによってRewardが定義できるデータに基づいてこれまではRLが実現されてきたが、これらはスケールせず、Rewardが定義されない環境のtrajectoryなどは学習されないので汎化性能が低いという課題がある。このため、これらのsupervisionつきの方法で学習をする前のwarmup手法として、reward-freeの学習パラダイム Early Experienceを提案している。

手法としてはシンプルな手法が2種類提案されている。
### Implicit World Modeling (IWM, 式(3)):
ある状態s_i において action a_i^{j}を (1 < j < |K|)をとった時の状態をs_i^{j}としたときに、(s_i, a_i^{j}, s_i^{j}) の3つ組を考える。これらはポリシーからのK回のrolloutによって生成可能。
このときに、状態sを全てテキストで表現するようにし、言語モデルのnext-token-prediction lossを用いて、ある状態s_jにおいてaction a_i^{k} をとったときに、s_j^{k} になることを予測できるように学習する。これにより例えばブックフライトのサイトで誤った日時を入れてしまった場合や、どこかをクリックしたときにどこに遷移するかなどの学習する環境の世界知識をimplicitにモデルに組み込むことができる。

### Self-Reflection（式4）
もう一つのパラダイムとして、専門家によるアクション a_i によって得られた状態 s_i と、それら以外のアクション a_i^{j} によって得られた状態 s_i^{j}が与えられたときに、s_iとs_i^{j}を比較したときに、なぜ a_i の方がa_i^{j} よりも好ましいかを説明するCoT C_i^{j}を生成し、三つ組データ(s_i, a_i^{j}, c_i^{j}) を構築する。このデータを用いて、状態s_iがgivenなときに、a_i に c_i^{j} をconcatしたテキストを予測できるようにnext-token-prediction lossで学習する。また、このデータだけでなく汎化性能をより高めるためにexpertによるimitation learningのためのデータCoTなしのデータもmixして学習をする。これにより、expertによるactionだけで学習するよりも、なぜexpertのアクションが良いかという情報に基づいてより豊富で転移可能な学習シグナルを活用し学習することができる。

この結果、downstreamタスクでのperformanceが単にImitation Learningを実施した場合と比較して提案手法でwarmupした方が一貫して向上する。また、5.4節にpost-trainingとして追加でGRPOを実施した場合も提案手法によるwarmupを実施した場合が最終的な性能が向上することが報告されている。

IWMは自己教師あり学習の枠組みだと思われるので、よぬスケールし、かつ汎化性能が高く様々な手法のベースとなりうる手法に見える。

著者ポスト:

Loading…

[Paper Note] Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models, Qizheng Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #ContextEngineering Issue Date: 2025-10-11 GPT Summary- ACEフレームワークは、適応メモリに基づき、コンテキストを進化するプレイブックとして扱い、生成、反省、キュレーションを通じて戦略を洗練します。これにより、詳細な知識を保持し、コンテキスト崩壊を防ぎます。ACEはエージェントやドメイン特化型ベンチマークで優れた性能を発揮し、適応のレイテンシとコストを削減。特に、ラベルなしで効果的に適応し、自然なフィードバックを活用する点が特徴です。全体の平均でトップランクのエージェントに匹敵し、より難しいテストでも優れた結果を示しました。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

[Paper Note] h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning, Sumeet Ramesh Motwani+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #LongHorizon #Author Thread-Post Issue Date: 2025-10-09 GPT Summary- 大規模言語モデルは短期的な推論には強いが、長期的な推論では性能が低下する。既存のアプローチはスケールしにくい。本研究では、短期データを用いて長期的な推論能力を向上させるスケーラブルな方法を提案。単純な問題を合成し、複雑な多段階依存チェーンを構成。結果のみの報酬でモデルを訓練し、カリキュラムを通じて精度を向上。実験により、GSM8Kでの訓練がGSM-SymbolicやMATH-500などのベンチマークでの精度を最大2.06倍向上させることを示した。理論的には、カリキュラムRLがサンプルの複雑さにおいて指数的な改善を達成することを示し、既存データを用いた長期的な問題解決の効率的な道を提案。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-10-09 GPT Summary- GDPvalは、AIモデルの経済的価値のあるタスクを評価するベンチマークで、米国GDPに寄与する44の職業をカバー。最前線モデルのパフォーマンスは時間と共に改善し、業界専門家に近づいている。人間の監視を加えたモデルは、無援助の専門家よりも効率的にタスクを実行可能であることを示唆。推論努力やタスクコンテキストの増加がモデルの性能向上に寄与。220のタスクのゴールドサブセットをオープンソース化し、研究促進のための自動採点サービスを提供。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #TabularData #SyntheticData #ScientificDiscovery #numeric #MajorityVoting Issue Date: 2025-10-09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

[Paper Note] In-the-Flow Agentic System Optimization for Effective Planning and Tool Use, Zhuofeng Li+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #On-Policy Issue Date: 2025-10-09 GPT Summary- AgentFlowは、4つのモジュール（プランナー、エグゼキューター、バリファイア、ジェネレーター）を調整し、マルチターン環境でプランナーを最適化する強化学習フレームワーク。Flow-GRPOを用いて、長いホライズンのスパースリワード問題に対処し、精度を向上。10のベンチマークで、7BスケールのAgentFlowは、検索、エージェンティック、数学、科学タスクでそれぞれ14.9%、14.0%、14.5%、4.1%の精度向上を達成し、GPT-4oを上回る性能を示した。 Comment

元ポスト: https://agentflow.stanford.edu

pj page: https://agentflow.stanford.edu

モデルサイズと推論ターンに対するスケーリング特性

似たような話が以下の研究にもある
- [Paper Note] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, Akshit Sinha+, arXiv'25

ポイント解説:

Loading…

ポイント解説:

Loading…

[Paper Note] GTA1: GUI Test-time Scaling Agent, Yan Yang+, arXiv'25, 2025.07

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #Test-Time Scaling #ComputerUse #VisionLanguageModel Issue Date: 2025-10-05 GPT Summary- GTA1というGUIエージェントは、ユーザーの指示を分解し、視覚要素と相互作用しながらタスクを自律的に完了します。計画の選択と視覚ターゲットとの正確な相互作用という2つの課題に対処するため、テスト時スケーリングを用いて最適なアクション提案を選び、強化学習を通じて基づけを改善します。実験により、GTA1は基づけとタスク実行の両方で最先端の性能を示しました。 Comment

元ポスト:

Loading…

[Paper Note] Towards Reliable Benchmarking: A Contamination Free, Controllable Evaluation Framework for Multi-step LLM Function Calling, Seiji Maekawa+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Controllable #NLP #LanguageModel #Evaluation #LongSequence #Contamination-free Issue Date: 2025-10-04 GPT Summary- TaLMsの評価のために、汚染のないフレームワークFuncBenchGenを提案。ツール使用をDAG上のトラバーサルとして捉え、モデルは正しい関数呼び出しシーケンスを構成。7つのLLMを異なる難易度のタスクで評価した結果、GPT-5が特に優れた性能を示し、依存の深さが増すと性能が低下。古い引数値の伝播が問題であることが判明し、再表現戦略を導入したところ、成功率が62.5%から81.3%に向上した。 Comment

元ポスト:

Loading…

[Paper Note] TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments, Zhangchen Xu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #Dataset #LanguageModel #SyntheticData #MCP Issue Date: 2025-10-04 GPT Summary- Toucanは、約500の実世界のモデルコンテキストプロトコルから合成された150万の軌跡を含む、最大の公開ツールエージェントデータセットを提供。多様で現実的なタスクを生成し、マルチツールおよびマルチターンのインタラクションに対応。5つのモデルを用いてツール使用クエリを生成し、厳密な検証を通じて高品質な出力を保証。Toucanでファインチューニングされたモデルは、BFCL V3ベンチマークで優れた性能を示し、MCP-Universe Benchでの進展を実現。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/Agent-Ark/Toucan-1.5M

[Paper Note] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning, Ruiyi Wang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #Author Thread-Post Issue Date: 2025-10-03 GPT Summary- マルチターン強化学習におけるLLMエージェントの訓練方法を研究し、設計空間を環境、報酬、ポリシーの3つの柱に分解。環境の複雑さがエージェントの一般化能力に与える影響、報酬の希薄性が訓練に与える効果、ポリシー勾配法の相互作用を分析。これらの知見を基に、訓練レシピを提案し、マルチターンエージェント強化学習の研究と実践を支援。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

takeawayが非常に簡潔で分かりやすい。

ベンチマーク:
- [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06
- [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10
- [Paper Note] Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25

[Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #SoftwareEngineering #read-later #Selected Papers/Blogs #reading #KeyPoint Notes #Author Thread-Post Issue Date: 2025-10-02 GPT Summary- 大規模言語モデル（LLMs）のソフトウェア工学（SWE）への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment

元ポスト:

Loading…

Agentlessはこちら:
- [Paper Note] Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25, 2024.07

著者ポスト:

Loading…

ポストの中でOpenhandsが同モデルを内部で検証し、Openhandsの環境内でSWE Bench Verifiedで評価した結果、レポート内で報告されているAcc. 60.4%は達成できず、17%に留まることが報告されていた模様。

Openhandsの説明によるとAgentlessは決められた固定されたワークフローのみを実施する枠組み（Kimi Devの場合はBugFixerとFileEditor)であり、ワークフローで定義されたタスクは効果的に実施できるが、それら以外のタスクはそもそもうまくできない。SWE Agent系のベンチのバグfixの方法は大きく分けてAgentlike（コードベースを探索した上でアクションを実行する形式）、Fixed workflow like Agentless(固定されたワークフローのみを実行する形式）の2種類があり、Openhandsは前者、Kimi Devは後者の位置付けである。

実際、テクニカルレポートのFigure2とAppendixを見ると、File Localization+BugFixer+TestWriterを固定されたプロンプトテンプレートを用いてmid-trainingしており、評価する際も同様のハーネスが利用されていると推察される（どこかに明示的な記述があるかもしれない）。
一方、Openhandsではより実環境の開発フローに近いハーネス（e.g., エージェントがコードベースを確認してアクションを提案→実行可能なアクションなら実行→そうでないならユーザからのsimulated responceを受け取る→Agentに結果をフィードバック→エージェントがアクション提案...）といったハーネスとなっている。

このように評価をする際のハーネスが異なるため、同じベンチマークに対して異なる性能が報告される、ということだと思われる。

単にSWE Bench VerifiedのAcc.だけを見てモデルを選ぶのではなく、評価された際のEvaluation Harnessが自分たちのユースケースに合っているかを確認することが重要だと考えられる。

参考:

- OpenhandsのEvaluation Harness: https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness

[Paper Note] RecoWorld: Building Simulated Environments for Agentic Recommender Systems, Fei Liu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#RecommenderSystems #LanguageModel #ReinforcementLearning Issue Date: 2025-09-30 GPT Summary- RecoWorldは、エージェント型レコメンダーシステムのためのシミュレーション環境を提案し、エージェントがユーザーに影響を与えずに学習できる場を提供します。ユーザーシミュレーターとエージェント型レコメンダーがマルチターンのインタラクションを行い、ユーザーの保持を最大化します。ユーザーシミュレーターはユーザーの反応を基に指示を生成し、レコメンダーはそれに応じて推奨を適応させる動的なフィードバックループを形成します。さらに、テキストベースやマルチモーダルなコンテンツ表現を探求し、マルチターン強化学習を通じて戦略を洗練させる方法を議論します。RecoWorldは、ユーザーとエージェントが共同でパーソナライズされた情報を形成する新しいインタラクションパラダイムを提示します。 Comment

元ポスト:

Loading…

[Paper Note] ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory, Siru Ouyang+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Selected Papers/Blogs #memory #One-Line Notes #Test-time Learning Issue Date: 2025-09-30 GPT Summary- ReasoningBankという新しいメモリフレームワークを提案し、エージェントが成功体験と失敗体験から推論戦略を抽出できるようにする。テスト時には関連メモリを活用し、学びを統合することで能力を向上させる。さらに、メモリを意識したテスト時スケーリング（MaTTS）を導入し、エージェントの体験を多様化・拡大する。これにより、ウェブブラウジングやソフトウェアエンジニアリングのベンチマークで既存のメモリメカニズムを上回る効果と効率を実現。メモリ駆動の経験スケーリングを新たな次元として確立し、エージェントの自己進化を促進する。 Comment

元ポスト:

Loading…

メモリを良質なものに更新、蓄積し続けることで性能がスケールするのであれば、新たなtest-time scalingのパラダイムになりそう。

ざっくり読んでみると本研究ではこのパラダイムのことをTest-Time Learningと呼称している（先行研究が２つ引用されているがざっと見た限りでは両者はそう言った呼称はしていないように見えた）。
すなわち、クエリのストリームが到達した時に将来のクエリを見ることはできずに、過去のクエリに対するtrajectoryや、self-verificationなどによってのみラベル無しで自己進化していくパラダイムのこと。

openreview: https://openreview.net/forum?id=jL7fwchScm

[Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #Dataset #QuestionAnswering #Evaluation #Coding #SoftwareEngineering Issue Date: 2025-09-27 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

[Paper Note] ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution, Robert Tjarko Lange+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #ScientificDiscovery #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm Issue Date: 2025-09-25 GPT Summary- ShinkaEvolveは、科学的発見を促進するための新しいオープンソースフレームワークであり、LLMsを利用して高い効率性とパフォーマンスを実現します。従来のコード進化手法の制限を克服し、親サンプリング技術や新規性拒否サンプリング、バンディットベースのアンサンブル選択戦略を導入。多様なタスクでの評価により、サンプル効率と解の質が向上し、150サンプルで新たな最先端ソリューションを発見しました。ShinkaEvolveは、オープンソースでのアクセス性を提供し、計算問題における発見を民主化します。 Comment

pj page: https://sakana.ai/shinka-evolve/

元ポスト:

Loading…

国際的なプログラミングコンテストでShinkaEvolveのサポートの元、チームが優勝した模様:
-

Loading…

ShinkaEvolveの公開から現在までの軌跡:

Loading…

[Paper Note] LIMI: Less is More for Agency, Yang Xiao+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-09-23 GPT Summary- AIシステムのエージェンシーを、自律的に問題を発見し解決策を実行する能力と定義。急速に変化する業界のニーズに応じて、単なる推論を超えた自律的なエージェントが求められている。LIMI（Less Is More for Intelligent Agency）は、最小限のトレーニングサンプルで高いエージェンシーを実現する新たな原則を提案し、78サンプルで73.5%の成果を達成。これは、従来のデータ量に依存するアプローチに対する挑戦であり、高品質なデモの戦略的キュレーションが重要であることを示している。 Comment

元ポスト:

Loading…

LLM AgentのSFTにおけるLess is more

参考:
- [Paper Note] LIMA: Less Is More for Alignment, Chunting Zhou+, arXiv'23, 2023.05

ポイント解説:

Loading…

[Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

現状、全体的にはGPT-5(high)の性能が最も良く、続いてClaude-4 Sonnetという感じに見える。OpenWeightなモデルでは、Kimi-K2の性能が高く、続いてQwen3-235Bという感じに見える。また、Figure1はbudgetごとのモデルの性能も示されている。シナリオ単位のbudgetが$1以上の場合はGPT-5(high)の性能が最も良いが、$0.1--$0.4の間ではKiml-K2の性能が最も良いように見える。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

[Paper Note] Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences, Andrew Kyle Lampinen+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #In-ContextLearning #RAG(RetrievalAugmentedGeneration) #Generalization #ReversalCurse #memory Issue Date: 2025-09-22 GPT Summary- 機械学習システムの一般化失敗の原因として、潜在学習の欠如を指摘。認知科学の視点から、エピソード記憶やオラクルリトリーバルメカニズムが一般化を改善する手段であることを示す。文脈内学習が情報活用の鍵であり、リトリーバル手法がパラメトリック学習を補完することで、データ効率を向上させる可能性を提案。 Comment

元ポスト:

Loading…

[Paper Note] ToolRL: Reward is All Tool Learning Needs, Cheng Qian+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #NeurIPS #Author Thread-Post Issue Date: 2025-09-20 GPT Summary- 大規模言語モデル（LLMs）のツール使用能力向上のため、報酬設計に関する初の包括的研究を行い、さまざまな報酬戦略を探求。ツール使用タスクに特化した報酬設計を提案し、GRPOを用いてLLMsを訓練。実証評価により、ベースモデルに対して17%、SFTモデルに対して15%の性能改善を達成。報酬設計の重要性を強調し、コードを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents, Thomas Kuntz+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #Safety #NeurIPS Issue Date: 2025-09-19 GPT Summary- コンピュータ使用エージェントの安全性を評価するために、新しいベンチマークOS-Harmを導入。OS-Harmは、意図的な誤用、プロンプトインジェクション攻撃、不適切な行動の3つの危害をテストする150のタスクを含む。自動ジャッジを用いてエージェントの正確性と安全性を評価し、高い一致率を達成。最前線モデルの評価から、意図的な誤用に従う傾向や脆弱性が明らかになった。OS-Harmは、エージェントの安全性向上に寄与することを目指す。 Comment

元ポスト:

Loading…

[Paper Note] WebSailor: Navigating Super-human Reasoning for Web Agent, Kuan Li+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #Reasoning #On-Policy Issue Date: 2025-09-18 GPT Summary- WebSailorは、LLMのトレーニングにおいて人間の認知的限界を超えるためのポストトレーニング手法であり、複雑な情報探索タスクでの性能を向上させる。構造化サンプリングや情報の難読化、DUPOを用いて高不確実性タスクを生成し、オープンソースエージェントの能力を大幅に上回ることを目指す。

[Paper Note] WebDancer: Towards Autonomous Information Seeking Agency, Jialong Wu+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData Issue Date: 2025-09-18 GPT Summary- 複雑な問題解決のために、エンドツーエンドの情報探索エージェントを構築する一貫したパラダイムを提案。4つの主要ステージ（データ構築、軌跡サンプリング、教師ありファインチューニング、強化学習）を経て、WebDancerを実装。GAIAとWebWalkerQAでの評価により、強力なパフォーマンスを示し、トレーニングパラダイムの有効性を確認。コードは公開予定。

[Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Factuality Issue Date: 2025-09-18 GPT Summary- BrowseComp-ZHは、中国のウェブ上でLLMエージェントを評価するために設計された高難易度のベンチマークで、289のマルチホップ質問から構成される。二段階の品質管理プロトコルを適用し、20以上の言語モデルを評価した結果、ほとんどのモデルが10%未満の精度で苦戦し、最良のモデルでも42.9%にとどまった。この結果は、効果的な情報取得戦略と洗練された推論能力が必要であることを示している。 Comment

[Paper Note] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization, Xixi Wu+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #read-later #ContextEngineering Issue Date: 2025-09-17 GPT Summary- ReSumという新しいパラダイムを導入し、定期的なコンテキスト要約を通じて無限の探索を可能にする。ReSum-GRPOを提案し、エージェントが要約条件付き推論に慣れるようにする。実験により、ReSumはReActに対して平均4.5％の改善を示し、WebResummer-30Bは既存のウェブエージェントを上回る性能を達成。 Comment

元ポスト:

Loading…

[Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Planning #LongSequence #read-later #DeepResearch #memory Issue Date: 2025-09-17 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究（OEDR）に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Agents via Continual Pre-training, Liangcai Su+, arXiv'25

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #FoundationModel #read-later Issue Date: 2025-09-17 GPT Summary- 大規模言語モデル（LLMs）を用いたエージェントシステムは、複雑な問題解決において進化しているが、ポストトレーニングアプローチではパフォーマンスが低下することが多い。これは、堅牢な基盤モデルの欠如が原因である。そこで、継続的な事前トレーニング（Agentic CPT）を導入し、強力なエージェント基盤モデルを構築することを提案。新たに開発したAgentFounderモデルは、10のベンチマークで最先端のパフォーマンスを達成し、特にBrowseComp-enで39.9%、BrowseComp-zhで43.3%、HLEでのPass@1で31.5%を記録した。 Comment

元ポスト:

Loading…

AI Agentのための基盤モデルを継続事前学習によって実現した模様

[Paper Note] Towards General Agentic Intelligence via Environment Scaling, Runnan Fang+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #MCP Issue Date: 2025-09-17 GPT Summary- 本研究では、エージェント知能を向上させるために環境を拡大し、関数呼び出し能力を強化するスケーラブルなフレームワークを提案。エージェントの訓練は二段階で行い、基本能力を付与した後、特定のドメインに特化させる。実験により、提案モデルAgentScalerが関数呼び出し能力を大幅に向上させることを示した。 Comment

元ポスト:

Loading…

blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

[Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents, Zile Qiao+, arXiv'25

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #read-later #DeepResearch Issue Date: 2025-09-17 GPT Summary- 新しいフレームワーク「WebResearcher」を提案し、AIエージェントが外部ソースから知識を自律的に発見・統合する方法を示す。WebResearcherは、深層研究をマルコフ決定過程として再定式化し、報告書に発見を統合することで文脈の問題を克服。また、スケーラブルなデータ合成エンジン「WebFrontier」を用いて高品質なトレーニングデータを生成し、ツール使用能力を向上させる。実験により、WebResearcherは最先端の性能を達成し、商用システムを上回ることが確認された。 Comment

元ポスト:

Loading…

blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

OpenAI DeepResearchとベンチマーク上で同等の性能を実現したopenweightモデル

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25, 2025.01
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

[Paper Note] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents, Jiacheng Miao+, arXiv'25

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ScientificDiscovery #Reproducibility #MCP Issue Date: 2025-09-17 GPT Summary- Paper2Agentは、研究論文をAIエージェントに自動変換するフレームワークで、研究成果の利用や発見を加速します。従来の論文は再利用の障壁を生んでいましたが、Paper2Agentは論文を知識豊富な研究アシスタントとして機能するエージェントに変換します。複数のエージェントを用いて論文と関連コードを分析し、モデルコンテキストプロトコル（MCP）を構築、洗練します。これにより、自然言語を通じて科学的クエリを実行できるエージェントを作成し、実際にゲノム変異やトランスクリプトミクス分析を行うエージェントが元の論文の結果を再現できることを示しました。Paper2Agentは、静的な論文を動的なAIエージェントに変えることで、知識の普及に新たなパラダイムを提供します。 Comment

code: https://github.com/jmiao24/Paper2Agent?tab=readme-ov-file#-demos

論文を論文が提案する技術の機能を提供するMCPサーバに変換し、LLM Agentを通じてユーザはsetup無しに呼びだして利用できるようにする技術な模様。論文から自動的にcodebaseを同定し、コアとなる技術をMCP toolsとしてラップし、反復的なテストを実施してロバストにした上でHF上のAI Agentに提供する、みたいな感じに見える。

ポイント解説:

Loading…

[Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Evaluation #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

[Paper Note] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, Akshit Sinha+, arXiv'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Reasoning #LongSequence #Scaling Laws #read-later #Selected Papers/Blogs #ContextEngineering #Author Thread-Post Issue Date: 2025-09-14 GPT Summary- LLMsのスケーリングが収益に影響を与えるかを探求。単一ステップの精度向上がタスクの長さに指数的改善をもたらすことを観察。LLMsが長期タスクで失敗するのは推論能力の欠如ではなく実行ミスによると主張。知識と計画を明示的に提供することで実行能力を向上させる提案。モデルサイズをスケーリングしても自己条件付け効果は減少せず、長いタスクでのミスが増加。思考モデルは自己条件付けを行わずに長いタスクを実行可能。最終的に、実行能力に焦点を当てることで、LLMsの複雑な推論問題解決能力と単純タスクの長期化による失敗理由を調和させる。 Comment

元ポスト:

Loading…

single stepでのタスク性能はサチって見えても、成功可能なタスクの長さは（single stepの実行エラーに引きづられるため）モデルのsingle stepのタスク性能に対して指数関数的に効いている（左上）。タスクが長くなればなるほどモデルは自身のエラーに引きずられ（self conditioning;右上)、これはパラメータサイズが大きいほど度合いが大きくなる（右下; 32Bの場合contextにエラーがあって場合のloeg horizonのAcc.が14Bよりも下がっている）。一方で、実行可能なstep数の観点で見ると、モデルサイズが大きい場合の方が多くのstepを要するタスクを実行できる（左下）。また、ThinkingモデルはSelf Conditioningの影響を受けにくく、single stepで実行可能なタスクの長さがより長くなる（中央下）。

といった話に見えるが、論文をしっかり読んだ方が良さそう。

（元ポストも著者ポストだが）著者ポスト:

Loading…

このスレッドは読んだ方が良い（というか論文を読んだ方が良い）。
特に、**CoTが無い場合は**single-turnでほとんどのモデルは5 stepのタスクをlatent spaceで思考し、実行することができないというのは興味深い（が、細かい設定は確認した方が良い）。なので、マルチステップのタスクは基本的にはplanningをさせてから出力をさせた方が良いという話や、

では複雑なstepが必要なタスクはsingle turnではなくmulti turnに分けた方が良いのか？と言うと、モデルによって傾向が違うらしい、といった話が書かれている。たとえば、Qwenはsingle turnを好むが、Gemmaはmulti turnを好むらしい。

日本語ポイント解説:

Loading…

解説:

Loading…

[Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Medical Issue Date: 2025-09-13 GPT Summary- 大規模言語モデル（LLMs）は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10％に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/

[Paper Note] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents, Junteng Liu+, arXiv'25

Paper/Blog Link My Issue
#GraphBased #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #LongSequence #read-later Issue Date: 2025-09-10 GPT Summary- 本研究では、情報探索のためのデータ不足に対処するため、WebExplorerというモデルベースの探索手法を提案。これにより、複雑なクエリ-回答ペアを生成し、高度なウェブエージェントWebExplorer-8Bを開発。128Kのコンテキスト長を持ち、最先端の情報探索ベンチマークで高いパフォーマンスを達成。特に、WebExplorer-8Bは他の大規模モデルを上回る精度を示し、長期的な問題解決に向けた実用的なアプローチを提供することが確認された。 Comment

元ポスト:

Loading…

評価で利用されているデータ:
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25, 2025.01

学習データの合成方法が肝

[Paper Note] An AI system to help scientists write expert-level empirical software, Eser Aygün+, arXiv'25

Paper/Blog Link My Issue
#NLP #Search #LanguageModel #ScientificDiscovery #read-later #TreeSearch Issue Date: 2025-09-10 GPT Summary- AIシステムを用いて質の指標を最大化する専門的な科学ソフトウェアを生成。大規模言語モデルと木探索を活用し、複雑な研究アイデアを統合。バイオインフォマティクスや疫学の分野で新しい手法を発見し、既存のモデルを上回る成果を達成。多様なタスクに対する新しい解決策を提供し、科学的進歩を加速することを目指す。 Comment

元ポスト:

Loading…

BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #read-later #Medical #Biological Issue Date: 2025-09-10 Comment

元ポスト:

Loading…

Biomedicalドメインにおける24種類の非常に複雑でnuancedな記述や画像の読み取りなどを含む実タスクによって構成される初めてのAgenticベンチマークとのこと。

[Paper Note] Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate, Andrea Wynn+, arXiv'25

Paper/Blog Link My Issue
#Multi #NLP Issue Date: 2025-09-10 GPT Summary- マルチエージェントディベートはAIの推論能力向上に有望だが、時には有害であることが判明。従来の研究が同質のエージェントに焦点を当てる中、モデルの能力の多様性が相互作用に与える影響を探求。実験により、ディベートが精度低下を引き起こす可能性を示し、強力なモデルでも弱いモデルを上回る状況で同様の結果が得られた。エージェントは誤った答えにシフトし、合意を優先する傾向があり、これがディベートの効果を損なうことを示唆している。 Comment

元ポスト:

Loading…

元ポストを読んだ限り、マルチエージェントシステムにdebateをさせても必ずしも性能改善するわけではないよ、という話のようである。
複数のstrong llmの中にweak llmが混在すると、モデルはおべっかによって同意するようにalignmentされる傾向があるので、良い方向に議論が収束するとは限らず、コンセンサスをとるような仕組みではなく、批判をする役目を設けるように設計するなどの工夫が必要、というような話らしい。

[Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, NeurIPS'25, 2025.05

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Coding #NeurIPS #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live #Environment Issue Date: 2025-09-06 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

openreview: https://openreview.net/forum?id=nMpJoVmRy1&referrer=%5Bthe%20profile%20of%20Maksim%20Nekrashevich%5D(%2Fprofile%3Fid%3D~Maksim_Nekrashevich1)

[Paper Note] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning, Haoming Wang+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #ReinforcementLearning #MultiModal #Reasoning #ComputerUse #VisionLanguageModel Issue Date: 2025-09-05 GPT Summary- UI-TARS-2は、GUI用自律エージェントの新しいモデルで、データ生成、安定化されたマルチターンRL、ハイブリッドGUI環境を統合。実証評価では、前モデルを大幅に上回り、複数のベンチマークで高いスコアを達成。約60%の人間レベルのパフォーマンスを示し、長期的な情報探索タスクにも適応可能。トレーニングダイナミクスの分析が安定性と効率向上の洞察を提供し、実世界のシナリオへの一般化能力を強調。 Comment

元ポスト:

Loading…

1.5をリリースしてから5ヶ月で大幅に性能を向上した模様

[Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #LanguageModel #Evaluation #Coding #SoftwareEngineering Issue Date: 2025-09-03 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

[Paper Note] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey, Guibin Zhang+, arXiv'25

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-09-03 GPT Summary- エージェント的強化学習（Agentic RL）は、従来の強化学習から大規模言語モデル（LLM）への適用におけるパラダイムシフトを示し、LLMを自律的な意思決定エージェントとして再構築します。本調査では、LLM-RLの単一ステップのマルコフ決定過程（MDP）とエージェント的RLの部分観測マルコフ決定過程（POMDP）を対比し、計画や推論などのエージェント能力を中心に二重分類法を提案します。強化学習は、静的なヒューリスティックから適応的なエージェント行動への変換に重要な役割を果たすと主張し、500以上の研究を統合してこの分野の機会と課題を明らかにします。 Comment

元ポスト:

Loading…

[Paper Note] Memento: Fine-tuning LLM Agents without Fine-tuning LLMs, Huichi Zhou+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #memory #Test-time Learning Issue Date: 2025-09-02 GPT Summary- 本論文では、ファインチューニングを必要としない新しい学習パラダイムを提案し、メモリベースのオンライン強化学習を通じて低コストでの継続的な適応を実現します。これをメモリ拡張マルコフ決定過程（M-MDP）として形式化し、行動決定のためのニューラルケース選択ポリシーを導入。エージェントモデル「Memento」は、GAIA検証で87.88%の成功率を達成し、DeepResearcherデータセットでも最先端の手法を上回る性能を示しました。このアプローチは、勾配更新なしでのリアルタイム学習を可能にし、機械学習の進展に寄与します。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

[Paper Note] AWorld: Orchestrating the Training Recipe for Agentic AI, Chengyue Yu+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP Issue Date: 2025-08-31 GPT Summary- AWorldというオープンソースシステムを導入し、エージェントと環境の相互作用を効率化。経験収集を14.6倍加速し、Qwen3-32Bベースのエージェントを訓練してGAIAの精度を21.59%から32.23%に向上。最難関レベルで商用モデルを超える性能を達成。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems, Jinyuan Fang+, arXiv'25

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #SelfCorrection #SelfImprovement Issue Date: 2025-08-31 GPT Summary- 自己進化型AIエージェントの研究が進展しており、動的環境に適応する能力を持つエージェントシステムの自動強化が求められている。本調査では、自己進化型エージェントの設計におけるフィードバックループを抽象化したフレームワークを提案し、システムの主要コンポーネントを強調。さらに、ドメイン特化型進化戦略や評価、安全性、倫理的考慮についても議論し、研究者や実務者に体系的な理解を提供することを目指す。 Comment

元ポスト:

Loading…

[Paper Note] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers, Zhenting Wang+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #MCP Issue Date: 2025-08-30 GPT Summary- MCP-Benchは、ツールの使用や調整、計画/推論を必要とする多段階タスクを評価するためのベンチマークであり、250のツールを持つ28のMCPサーバーにLLMsを接続します。従来のベンチマークとは異なり、相互に連携するツールセットを提供し、複雑なタスクを構築可能にします。タスクは、ツールの取得能力や多段階実行経路の計画能力をテストし、既存のベンチマークでは評価されていない能力を明らかにします。20のLLMに対する実験を通じて、MCP-Benchの課題が示されました。 Comment

元ポスト:

Loading…

またしてもMCPに基づいたtool useのベンチマークが出た模様

[Paper Note] MK2 at PBIG Competition: A Prompt Generation Solution, Xu+, IJCAI WS AgentScen'25, 2025.08

Paper/Blog Link My Issue
#NLP #Planning #Prompting #Reasoning #IJCAI #Workshop #IdeaGeneration Issue Date: 2025-08-30 Comment

元ポスト:

Loading…

Patentからmarket-readyなプロダクトのコンセプトを生成し評価するタスク(PBIG)に取り組んでいる。
Reasoningモデルはコストとレスポンスの遅さから利用せず（iterationを重ねることを重視）、LLMのアシストを受けながらpromptを何度もhuman in the loopでiterationしながら品質を高めていくアプローチをとり、リーダーボードで1st placeを獲得した模様。

[Paper Note] AI-Researcher: Autonomous Scientific Innovation, Jiabin Tang+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Proprietary #ScientificDiscovery Issue Date: 2025-08-29 GPT Summary- AI-Researcherという自律型研究システムを提案し、文献レビューから論文作成までの研究プロセスを自動化。Scientist-Benchを用いてAIの研究能力を評価し、実験により人間レベルの研究論文を生成する成功率を示す。この研究は、自律的な科学的革新の新たな基盤を築く。 Comment

github: https://github.com/HKUDS/AI-Researcher

元ポスト:

Loading…

[Paper Note] Mobile-Agent-v3: Foundamental Agents for GUI Automation, Jiabo Ye+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SmallModel #ComputerUse #On-Policy #GUI #Asynchronous Issue Date: 2025-08-29 GPT Summary- 本論文では、GUI-OwlというGUIエージェントモデルを提案し、デスクトップおよびモバイル環境での最先端性能を達成したことを報告しています。特に、Mobile-Agent-v3フレームワークを導入し、性能を向上させました。GUI-Owlは、クラウドベースの仮想環境を利用した自己進化するデータ生成、エンドツーエンドの意思決定を支援する多様な機能、スケーラブルな強化学習フレームワークを特徴としています。これらの成果は、オープンソースとして公開されています。 Comment

github: https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25
- [Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Tianbao Xie+, arXiv'24, 2024.04

Trajectory-aware Relative Policy Optimization
(TRPO)

[Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #MCP Issue Date: 2025-08-25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning, Justin Chih-Yao Chen+, EMNLP'25

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #SelfCorrection #EMNLP Issue Date: 2025-08-24 GPT Summary- MAgICoReは、LLMの推論を改善するための新しいアプローチで、問題の難易度に応じて洗練を調整し、過剰な修正を回避する。簡単な問題には粗い集約を、難しい問題には細かい反復的な洗練を適用し、外部の報酬モデルを用いてエラーの特定を向上させる。3つのエージェント（Solver、Reviewer、Refiner）によるマルチエージェントループを採用し、洗練の効果を確保する。Llama-3-8BおよびGPT-3.5で評価した結果、MAgICoReは他の手法を上回る性能を示し、反復が進むにつれて改善を続けることが確認された。 Comment

元ポスト:

Loading…

[Paper Note] ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools, Shaofeng Yin+, arXiv'25

Paper/Blog Link My Issue
#Multi #ComputerVision #NLP #Dataset #LanguageModel #SyntheticData #VisionLanguageModel Issue Date: 2025-08-24 GPT Summary- 本研究では、実世界のツール使用能力を向上させるために、23Kのインスタンスからなる大規模マルチモーダルデータセット「ToolVQA」を提案。ToolVQAは、実際の視覚的コンテキストと多段階推論タスクを特徴とし、ToolEngineを用いて人間のようなツール使用推論をシミュレート。7B LFMを微調整した結果、テストセットで優れたパフォーマンスを示し、GPT-3.5-turboを上回る一般化能力を持つことが確認された。 Comment

人間による小規模なサンプル（イメージシナリオ、ツールセット、クエリ、回答、tool use trajectory)を用いてFoundation Modelに事前知識として与えることで、よりrealisticなscenarioが合成されるようにした上で新たなVQAを4k程度合成。その後10人のアノテータによって高品質なサンプルにのみFilteringすることで作成された、従来よりも実世界の設定に近く、reasoningの複雑さが高いVQAデータセットな模様。

具体的には、image contextxが与えられた時に、ChatGPT-4oをコントローラーとして、前回のツールとアクションの選択をgivenにし、人間が作成したプールに含まれるサンプルの中からLongest Common Subsequence (LCS) による一致度合いに基づいて人手によるサンプルを選択し、動的にcontextに含めることで多様なで実世界により近しいmulti step tooluseなtrajectoryを合成する、といった手法に見える。pp.4--5に数式や図による直感的な説明がある。なお、LCSを具体的にどのような文字列に対して、どのような前処理をした上で適用しているのかまでは追えていない。

元ポスト:

Loading…

[Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #MCP Issue Date: 2025-08-22 GPT Summary- モデルコンテキストプロトコル（MCP）は、LLMを外部データソースに接続する新しい標準であり、MCP-Universeという包括的なベンチマークを導入。これにより、実際のアプリケーションにおけるLLMの評価が可能となる。6つのコアドメインをカバーし、厳密な評価手法を実装。主要なLLMは性能制限を示し、長文コンテキストや未知のツールの課題に直面。UIサポート付きの評価フレームワークをオープンソース化し、MCPエコシステムの革新を促進。 Comment

pj page: https://mcp-universe.github.io/

元ポスト:

Loading…

解説:

Loading…

[Paper Note] WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model, Tianqing Fang+, EMNLP'25

Paper/Blog Link My Issue
#NLP #LanguageModel #SelfImprovement #EMNLP Issue Date: 2025-08-22 GPT Summary- 自己改善エージェントのために、共進化するワールドモデルLLMを導入する新しいフレームワークを提案。これにより、エージェントのポリシーを洗練する自己指導型トレーニングデータを生成し、行動選択を導く先読みシミュレーションを実現。実験により、既存の自己進化エージェントに対して10%のパフォーマンス向上を示し、持続的な適応性を促進することを目指す。 Comment

元ポスト:

Loading…

[Paper Note] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, Shilong Li+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…

[Paper Note] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL, Weizhen Li+, arXiv'25

Paper/Blog Link My Issue
#Single #EfficiencyImprovement #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #LongSequence #read-later Issue Date: 2025-08-21 GPT Summary- Chain-of-Agents（CoA）という新しいLLM推論パラダイムを提案し、マルチエージェントシステムの協力を単一モデル内でエンドツーエンドに実現。マルチエージェント蒸留フレームワークを用いて、エージェント的な教師ありファインチューニングを行い、強化学習で能力を向上。得られたエージェント基盤モデル（AFMs）は、ウェブエージェントやコードエージェントの設定で新たな最先端性能を示す。研究成果はオープンソース化され、今後の研究の基盤を提供。 Comment

元ポスト:

Loading…

マルチエージェントのように振る舞うシングルエージェントを、マルチエージェントから得られたtrajectoryを通じて蒸留することめ実現する手法を提案。SFTでcold startに対して訓練した後、verifiable reward (タスクを正常に完了できたか否か)でRLする模様。

データセットも公開されている模様

所見:

Loading…

解説:

Loading…

[Paper Note] Agent Laboratory: Using LLM Agents as Research Assistants, Samuel Schmidgall+, EMNLP'25 Findings

Paper/Blog Link My Issue
#NLP #LanguageModel #ScientificDiscovery #EMNLP #Findings Issue Date: 2025-08-21 GPT Summary- Agent Laboratoryは、全自動のLLMベースのフレームワークで、研究アイデアから文献レビュー、実験、報告書作成までのプロセスを完了し、質の高い研究成果を生成します。人間のフィードバックを各段階で取り入れることで、研究の質を向上させ、研究費用を84%削減。最先端の機械学習コードを生成し、科学的発見の加速を目指します。 Comment

元ポスト:

Loading…

pj page: https://agentlaboratory.github.io

[Paper Note] ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents, Hanyu Lai+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ComputerUse Issue Date: 2025-08-20 GPT Summary- ComputerRLは、自律的なデスクトップインテリジェンスのためのフレームワークで、API-GUIパラダイムを用いてエージェントがデジタルワークスペースを操作します。分散RLインフラを開発し、数千の仮想デスクトップ環境でのスケーラブルな強化学習を実現。Entropulseトレーニング戦略により、長期トレーニング中のエントロピー崩壊を軽減。GLM-4-9B-0414を用いたAutoGLM-OS-9Bは、OSWorldベンチマークで48.1%の新しい最先端精度を達成し、デスクトップ自動化における重要な改善を示しました。 Comment

ポイント解説:

Loading…

ポイント解説:

Loading…

[Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。

[Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。

[Paper Note] OpenCUA: Open Foundations for Computer-Use Agents, Xinyuan Wang+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Author Thread-Post Issue Date: 2025-08-15 GPT Summary- OpenCUAは、CUAデータと基盤モデルをスケールさせるためのオープンソースフレームワークであり、アノテーションインフラ、AgentNetデータセット、反射的なChain-of-Thought推論を持つスケーラブルなパイプラインを提供。OpenCUA-32Bは、CUAベンチマークで34.8%の成功率を達成し、最先端の性能を示す。研究コミュニティのために、アノテーションツールやデータセットを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

CUAにおいてProprietaryモデルに近い性能を達成した初めての研究な模様。重要

続報:

Loading…

OSWorld VerifiedでUI-TARS-250705,claude-4-sonnet-20250514超えでtop1に君臨とのこと。

[Paper Note] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL, Jiaxuan Gao+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Search #LanguageModel #ReinforcementLearning #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #Asynchronous #Author Thread-Post Issue Date: 2025-08-14 GPT Summary- ASearcherは、LLMベースの検索エージェントの大規模なRLトレーニングを実現するオープンソースプロジェクトであり、高効率な非同期RLトレーニングと自律的に合成された高品質なQ&Aデータセットを用いて、検索能力を向上させる。提案されたエージェントは、xBenchで46.7%、GAIAで20.8%の改善を達成し、長期的な検索能力を示した。モデルとデータはオープンソースで提供される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説ポスト:

Loading…

既存のモデルは <= 10 turnsのデータで学習されており、大規模で高品質なQAデータが不足している問題があったが、シードQAに基づいてQAを合成する手法によって1.4万シードQAから134kの高品質なQAを合成した（うち25.6kはツール利用が必要）。具体的には、シードのQAを合成しエージェントがQAの複雑度をiterationをしながら向上させていく手法を提案。事実情報は常にverificationをされ、合成プロセスのiterationの中で保持され続ける。個々のiterationにおいて、現在のQAと事実情報に基づいて、エージェントは
- Injection: 事実情報を新たに注入しQAをよりリッチにすることで複雑度を上げる
- Fuzz: QA中の一部の詳細な情報をぼかすことで、不確実性のレベルを向上させる。
の2種類の操作を実施する。その上で、QAに対してQuality verificationを実施する:
- Basic Quality: LLMでqualityを評価する
- Difficulty Measurement: LRMによって、複数の回答候補を生成する
- Answer Uniqueness: Difficulty Measurementで生成された複数の解答情報に基づいて、mismatched answersがvalid answerとなるか否かを検証し、正解が単一であることを担保する

また、複雑なタスク、特にtool callsが非常に多いタスクについては、多くのターン数（long trajectories）が必要となるが、既存のバッチに基づいた学習手法ではlong trajectoriesのロールアウトをしている間、他のサンプルの学習がブロックされてしまい学習効率が非常に悪いので、バッチ内のtrajectoryのロールアウトとモデルの更新を分離（ロールアウトのリクエストが別サーバに送信されサーバ上のInference Engineで非同期に実行され、モデルをアップデートする側は十分なtrajectoryがバッチ内で揃ったらパラメータを更新する、みたいな挙動？）することでIdleタイムを無くすような手法を提案した模様。

既存の手法ベンチマークの性能は向上している。学習が進むにつれて、trajectory中のURL参照回数やsearch query数などが増大していく曲線は考察されている。他モデルと比較して、より多いターン数をより高い正確性を以って実行できるといった定量的なデータはまだ存在しないように見えた。

[Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #SyntheticData #Evaluation #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

[Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #MCP Issue Date: 2025-08-13 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

MCP環境におけるLLM Agentのベンチマーク。論文中のTable1に他のベンチマークを含めサマリが掲載されている。MCPを用いたLLMAgentのベンチがすでにこんなにあることに驚いた…。

[Paper Note] Memp: Exploring Agent Procedural Memory, Runnan Fang+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ContextEngineering #memory Issue Date: 2025-08-12 GPT Summary- 本研究では、LLMに基づくエージェントに学習可能で更新可能な手続き的記憶を持たせるための戦略を提案。Mempを用いて過去のエージェントの軌跡を指示や抽象に蒸留し、記憶の構築と更新を行う。TravelPlannerとALFWorldでの実証評価により、記憶リポジトリが進化することでエージェントの成功率と効率が向上することを示した。また、強力なモデルからの手続き的記憶の移行により、弱いモデルでも性能向上が得られることが確認された。 Comment

元ポスト:

Loading…

アドホックに探索と実行を繰り返すのではなく、過去の試行のtrajectoryをメモリに記憶しておき、活用するような枠組みな模様。trajectoryは新たなタスクが来た際にretrieverでrelevantなtrajectoryを検索して利用され、良質なtrajectoryがキープされれば成功率や効率が向上すると考えられる。trajectoryはprocedure memoryとして保存され、成功率が低いtrajectoryは破棄されることで更新される。

メモリはT個のタスクに対するs_t, a_t, o_t, i.e., state, action, observation,の系列τと、reward rが与えられた時に、Builderを通して構築されてストアされる。agentは新たなタスクt_newに直面した時に、t_newと類似したメモリをretrieyeする。これはτの中のある時刻tのタスクに対応する。メモリは肥大化していくため、実験では複数のアルゴリズムに基づくメモリの更新方法について実験している。

procedural memoryの有無による挙動の違いに関するサンプル。

memoryに対してretrieverを適用することになるので、retrieverの性能がボトルネックになると思われる。追加の学習をしなくて済むのは利点だが、その代わりモデル側がメモリ管理をする機能を有さない（学習すればそういった機能を持たせられるはず）ので、その点は欠点となる、という印象。

ポイント解説:

Loading…

[Paper Note] NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition, Le Deng+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #SoftwareEngineering Issue Date: 2025-08-12 GPT Summary- 自然言語駆動のノーコード開発におけるLLMsの評価のために「NoCode-bench」を提案。634のタスクと114,000のコード変更から成り、ドキュメントとコード実装のペアを検証。実験結果では、最良のLLMsがタスク成功率15.79%に留まり、完全なNL駆動のノーコード開発には未だ課題があることが示された。NoCode-benchは今後の進展の基盤となる。 Comment

元ポスト:

Loading…

リーダーボード: https://nocodebench.org

ドキュメントをソフトウェアの仕様書とみなし、ドキュメントの更新部分をらinputとし、対応する"機能追加"をする能力を測るベンチマーク

SoTAモデルでも15.79%程度しか成功しない。

元ポストによると、ファイルを跨いだ編集、コードベースの理解、tool useに苦労しているとのこと。

[Paper Note] Agent Lightning: Train ANY AI Agents with Reinforcement Learning, Xufang Luo+, arXiv'25

Paper/Blog Link My Issue
#LanguageModel #ReinforcementLearning #SoftwareEngineering Issue Date: 2025-08-10 GPT Summary- Agent Lightningは、任意のAIエージェントのためにLLMsを用いたRLトレーニングを可能にする柔軟なフレームワークで、エージェントの実行とトレーニングを分離し、既存のエージェントとの統合を容易にします。マルコフ決定過程としてエージェントの実行を定式化し、階層的RLアルゴリズムLightningRLを提案。これにより、複雑な相互作用ロジックを扱うことが可能になります。実験では、テキストからSQLへの変換などで安定した改善が見られ、実世界でのエージェントトレーニングの可能性が示されました。 Comment

元ポスト:

Loading…

[Paper Note] A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence, Huan-ang Gao+, arXiv'25

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #SelfCorrection #SelfImprovement Issue Date: 2025-07-30 GPT Summary- 大規模言語モデル（LLMs）は静的であり、動的な環境に適応できないため、自己進化するエージェントの必要性が高まっている。本調査は、自己進化するエージェントに関する初の包括的レビューを提供し、進化の基礎的な次元を整理。エージェントの進化的メカニズムや適応手法を分類し、評価指標や応用分野を分析。最終的には、エージェントが自律的に進化し、人間レベルの知能を超える人工超知能（ASI）の実現を目指す。 Comment

元ポスト:

Loading…

Figure3がとても勉強になる。Self-Evolveと呼んだ時に、それがどのようにEvolveするものなのかはきちんとチェックした方が良さそう。追加の学習をするのか否かなど。これによって使いやすさが段違いになりそうなので。

[Paper Note] EduThink4AI: Translating Educational Critical Thinking into Multi-Agent LLM Systems, Xinmeng Hou+, arXiv'25

Paper/Blog Link My Issue
#Multi #NLP #Prompting Issue Date: 2025-07-29 GPT Summary- EDU-Promptingは、教育的批判的思考理論とLLMエージェント設計を結びつけ、批判的でバイアスを意識した説明を生成する新しいマルチエージェントフレームワーク。これにより、AI生成の教育的応答の真実性と論理的妥当性が向上し、既存の教育アプリケーションに統合可能。 Comment

元ポスト:

Loading…

Critiqueを活用したマルチエージェントのようである（具体的なCritiqueの生成方法については読めていない。その辺が重要そう

[Paper Note] Deep Researcher with Test-Time Diffusion, Rujun Han+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #LLM-as-a-Judge #SelfCorrection #DeepResearch Issue Date: 2025-07-25 GPT Summary- TTD-DRは、LLMsを用いた研究報告書生成の新しいフレームワークで、草案から始まり、デノイジングプロセスを通じて情報を動的に取り入れながら洗練される。自己進化アルゴリズムにより高品質なコンテキストを生成し、情報損失を減少させる。TTD-DRは、集中的な検索とマルチホップ推論を必要とするベンチマークで最先端の結果を達成し、既存の深層研究エージェントを上回る性能を示す。 Comment

元ポスト:

Loading…

Self-Evolutionというのは、モデルのパラメータを更新するというものではなく、Agentに渡すContextをLLM-as-a-Judgeのスコアが改善するように、フィードバックとして得られるcritiqueなどを通じて反復的にoutput（＝別のAgentにcontextとして渡される情報）を洗練させていくような方法のことを指している模様。このようなプロセスを複数のパスで実施し、最終的にマージすることで高品質なoutput(context)を得る。

日本語解説: https://zenn.dev/knowledgesense/articles/5a341158c2c9ab

[Paper Note] A Survey of Context Engineering for Large Language Models, Lingrui Mei+, arXiv'25

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #ContextEngineering Issue Date: 2025-07-19 GPT Summary- 本調査では、LLMsの性能を向上させる「コンテキストエンジニアリング」を提案し、その要素と実装方法を体系的に分類。コンテキストの取得、生成、処理、管理を検討し、洗練されたシステム実装を探る。1300以上の研究を分析し、モデルの能力の非対称性を明らかにし、複雑な文脈理解と長文出力生成のギャップに対処する重要性を強調。研究者とエンジニアのための統一フレームワークを提供。 Comment

もうContext Engineeringという切り口の体系化されたSurveyが出てきた。早すぎ。

元ポスト:

Loading…

[Paper Note] SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?, Xinyi He+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #Evaluation #SoftwareEngineering Issue Date: 2025-07-18 GPT Summary- コードのパフォーマンス最適化は重要であり、LLMsのリポジトリレベルでの能力は未探求。これに対処するため、SWE-Perfという初のベンチマークを導入。140のインスタンスを用いて、LLMsと専門家の最適化パフォーマンスのギャップを評価し、研究機会を示す。 Comment

元ポスト:

Loading…

これまでのSWE系のベンチマークはBug Fixなどにフォーカスされてきたが、こちらのベンチマークはソフトウェアのパフォーマンス（i.e., 実行時間）を改善させられるかにフォーカスしているとのこと。
実際にリポジトリからPRを収集し、パッチ前後の実行時間を比較。20回のrunを通じて統計的に有意な実行時間の差があるもののみにフィルタリングをしているとのこと。

Human Expertsは平均10.9%のgainを得たが、エージェントは2.3%にとどまっており、ギャップがあるとのこと。

傾向として、LLMはlow levelなインフラストラクチャ（環境構築, 依存関係のハンドリング, importのロジック）を改善するが、Human Expertsはhigh levelなロジックやデータ構造を改善する（e.g., アルゴリズムや、データハンドリング）。

[Paper Note] AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench, Edan Toledo+, arXiv'25

Paper/Blog Link My Issue
#GraphBased #NLP #ScientificDiscovery Issue Date: 2025-07-08 GPT Summary- AI研究エージェントは、機械学習の自動化を通じて科学の進展を促進する可能性がある。本研究では、MLE-benchというKaggleコンペティションを用いてエージェントの性能向上に取り組み、検索ポリシーとオペレーターを用いて候補解の空間を探索する方法を提案。異なる検索戦略とオペレーターの組み合わせが高いパフォーマンスに寄与することを示し、MLE-bench liteでの結果を向上させ、Kaggleメダル獲得率を39.6%から47.7%に引き上げた。自動化された機械学習の進展には、これらの要素を共同で考慮することが重要である。 Comment

元ポスト:

Loading…

[Paper Note] Future of Work with AI Agents: Auditing Automation and Augmentation Potential across the U.S. Workforce, Yijia Shao+, arXiv'25

Paper/Blog Link My Issue
#Investigation Issue Date: 2025-07-02 GPT Summary- 本論文では、労働者がAIエージェントに自動化または補完してほしい職業タスクを評価する新しい監査フレームワークを提案し、労働者の希望と技術的能力の一致を分析します。音声強化ミニインタビューを用いて「人間主体性スケール（HAS）」を導入し、米国労働省のO*NETデータベースを基にしたWORKBankデータベースを構築しました。タスクを自動化のゾーンに分類し、AIエージェント開発におけるミスマッチと機会を明らかにします。結果は職業ごとの多様なHASプロファイルを示し、AIエージェントの統合がスキルのシフトを促す可能性を示唆しています。これにより、AIエージェントの開発を労働者の希望に整合させる重要性が強調されます。 Comment

元ポスト:

Loading…

[Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #ScientificDiscovery #Reproducibility Issue Date: 2025-06-30 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

[Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #Coding #LongSequence #ScientificDiscovery #NeurIPS #Author Thread-Post Issue Date: 2025-06-17 GPT Summary- AIシステムの最適化問題に対するパフォーマンスを評価する新しいベンチマークALE-Benchを提案。ALE-Benchは実際のタスクに基づき、長期的な解決策の洗練を促進する。大規模言語モデル（LLM）の評価では特定の問題で高いパフォーマンスを示すが、一貫性や長期的な問題解決能力において人間とのギャップが残ることが明らかになり、今後のAI進展に向けた必要性を示唆している。 Comment

元ポスト:

Loading…

[Paper Note] Go-Browse: Training Web Agents with Structured Exploration, Apurva Gandhi+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Author Thread-Post Issue Date: 2025-06-12 GPT Summary- Go-Browseを提案し、ウェブ環境の構造的探索を通じて多様なデータを自動収集。グラフ探索を用いて効率的なデータ収集を実現し、WebArenaベンチマークで成功率21.7%を達成。これはGPT-4o miniを2.4%上回り、10B未満のモデルでの最先端結果を2.9%上回る。 Comment

元ポスト:

Loading…

WebArena:
- [Paper Note] WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24

[Paper Note] Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Coding #NeurIPS #One-Line Notes #Author Thread-Post Issue Date: 2025-06-06 GPT Summary- プログラム分析に基づくフィードバックを用いた強化学習フレームワーク「REAL」を提案。セキュリティや保守性の欠陥を検出し、機能的正確性を保証することで、LLMsによる高品質なコード生成を促進。手動介入不要でスケーラブルな監視を実現し、実験により最先端の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

現在のCoding LLMはUnitTestを通るように学習されるが、UnitTestに通るからといってコードの品質が良いわけでは無いので、UnitTestに通るか否かのReward（Functionality)に加えて、RL中に生成されたコードを制御フローグラフ[^1]に変換し汚染解析[^2]をした結果をRewardに組み込むことで、FunctionalityとQualityを両立したよ、という話のようである。

Figure1のグラフの縦軸は、Functionalityと（UnitTestが通ったか否か）と、Quailty(セキュリティや保守性に関する問題が検出されなかった)、という両方の条件を満たした割合である点に注意。

[^1]:プログラムを実行したときに通る可能性のある経路のすべてをグラフとして表したもの[引用元]( https://qiita.com/uint256_t/items/7d4556cb8f5997b9e95c)
[^2]:信頼できない汚染されたデータがプログラム中でどのように処理されるかを分析すること

[Paper Note] Self-Challenging Language Model Agents, Yifei Zhou+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#NLP #LanguageModel #SelfImprovement #Author Thread-Post Issue Date: 2025-06-03 GPT Summary- Self-Challengingフレームワークを用いて、エージェントが自己生成した高品質なタスクで訓練。エージェントはチャレンジャーとして役割を果たし、Code-as-Task形式でタスクを生成し、その後実行者として強化学習で評価。M3ToolEvalとTauBenchベンチマークで、Llama-3.1-8B-Instructが自己生成データのみで2倍以上の性能向上を達成。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

[Paper Note] Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering, Guangtao Zeng+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#NLP #LanguageModel #SoftwareEngineering #read-later #Author Thread-Post Issue Date: 2025-06-01 GPT Summary- 言語モデルは標準化されたコーディングのベンチマークでは良好な性能を示すが、実世界のソフトウェア工学タスクには苦戦。特に1000億未満のパラメータ数では顕著で、小型モデルの性能改善は難しい。従来は教師ありファインチューニングに依存し、データ整備には高いコストがかかる。新たなアプローチとしてEvoScaleを提案。これは生成を進化プロセスとして扱い、反復的な出力改善を通じて高スコア領域にシフトさせることで、必要なサンプル数を削減。自己進化するよう強化学習で訓練され、外部検証器に依存せず自らスコアを改善。評価の結果、32BモデルSatori-SWE-32Bは少数のサンプルで1000億超モデルと同等以上の性能を達成。すべてのコード、データ、モデルはオープンソース。 Comment

元ポスト:

Loading…

[Paper Note] LLMs Get Lost In Multi-Turn Conversation, Philippe Laban+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Conversation #ContextEngineering #Reference Collection Issue Date: 2025-05-24 GPT Summary- LLMsは会話型インターフェースとして、ユーザーがタスクを定義するのを支援するが、マルチターンの会話ではパフォーマンスが低下する。シミュレーション実験の結果、マルチターンで39%のパフォーマンス低下が見られ、初期のターンでの仮定に依存しすぎることが原因と判明。LLMsは会話中に誤った方向に進むと、回復が難しくなることが示された。 Comment

元ポスト:

Loading…

Lost in the MiddleならぬLost in Conversation

[Paper Note] AlphaEvolve: A coding agent for scientific and algorithmic discovery, Alexander Novikov+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #ScientificDiscovery Issue Date: 2025-05-17 GPT Summary- AlphaEvolveは、未解決の科学問題に取り組み、計算基盤を最適化するための進化的コーディングエージェントです。自律的にアルゴリズムを改善し、評価者のフィードバックを基に反復的に進化させ、新たな発見を促します。具体的には、データセンターの効率的なスケジューリングや回路設計の簡素化を実現し、高度な数学問題に対して新たな証明可能なアルゴリズムを導入しました。特に、56年ぶりにストラスレンのアルゴリズムを上回る新しい掛け算手法を発見しました。AlphaEvolveは、科学と計算分野への大きな貢献が期待されています。 Comment

blog post: https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

[Paper Note] Why Do Multi-Agent LLM Systems Fail?, Mert Cemri+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#Multi #Analysis #NLP #NeurIPS #One-Line Notes #Author Thread-Post Issue Date: 2025-04-26 GPT Summary- マルチエージェントLLMシステム（MAS）の性能向上が乏しい中、初の故障分類法MASTを提案。200以上のタスクを通じて14の故障モードを特定し、3つのカテゴリに整理。LLMを活用した評価パイプラインを開発し、故障分析の実用性を示す。特定された故障には複雑な解決策が必要であり、研究への道筋を強調。データセットとLLM注釈者をオープンソース化してMASの進展を促進。 Comment

元ポスト:

Loading…

7つのメジャーなマルチエージェントフレームワークに対して200以上のタスクを実施し、6人の専門家がtraceをアノテーション。14種類の典型的なfailure modeを見つけ、それらを3つにカテゴライズ。これを考慮してマルチエージェントシステムの失敗に関するTaxonomy（MAS）を提案

openreview: https://openreview.net/forum?id=fAjbYBmonr&referrer=%5Bthe%20profile%20of%20Matei%20Zaharia%5D(%2Fprofile%3Fid%3D~Matei_Zaharia1)

[Paper Note] UI-TARS: Pioneering Automated GUI Interaction with Native Agents, Yujia Qin+, arXiv'25, 2025.01

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Blog #Reasoning #OpenWeight #ComputerUse #VisionLanguageModel #2D (Image) #One-Line Notes #text Issue Date: 2025-04-18 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のような操作を行うエンドツーエンドのGUIエージェントモデルである。従来の商用モデルに依存せず、知覚、グラウンディング、GUIタスク実行において最先端の性能を発揮。OSWorldベンチマークでは、UI-TARSが高スコアを達成し、他のモデルを上回る。主要な革新には、強化された知覚、統一されたアクションモデリング、System-2推論、反省的オンライン・トレースによる反復的トレーニングが含まれる。これにより、UI-TARSは未知の状況にも適応可能な学習能力を持つ。GUIエージェントの進化経路も分析し、今後の発展を探る。 Comment

色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)

元ポスト:

Loading…

[Paper Note] Hallucination Mitigation using Agentic AI Natural Language-Based Frameworks, Diego Gosmar+, arXiv'25, 2025.01

Paper/Blog Link My Issue
#NLP #LanguageModel #Hallucination Issue Date: 2025-04-11 GPT Summary- 複数の専門AIエージェントを協調させて生成系AIモデルの幻覚を緩和する研究。自然言語処理（NLP）を用いてエージェント間の相互作用を促進し、300以上の幻覚を誘発するプロンプトを導入。二次・三次エージェントが出力を検討し、異なるモデルを活用して主張を検出、免責事項を追加。新たに設計されたKPIを用いて幻覚的行動の変化を定量化。OVONフレームワークにより文脈情報を転送し、テキストを洗練する。これにより、幻覚の緩和に有望な成果が得られ、AIコミュニティ内での信頼が向上することを示唆。 Comment

元ポスト:

Loading…

[Paper Note] Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ICML #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes #Environment Issue Date: 2025-04-02 GPT Summary- SWE-Gymを提案し、2,438件の実世界のPythonタスクを含む環境を構築。言語モデルに基づくSWEエージェントを訓練し、SWE-Benchで最大19%の解決率向上を達成。微調整されたエージェントは新たな最先端の性能を示し、SWE-Gymやモデル、エージェントの軌跡を公開。 Comment

SWE-Benchとは完全に独立したより広範な技術スタックに関連するタスクに基づくSWEベンチマーク
- [Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24

SWE-Benchと比べて実行可能な環境と単体テストが提供されており、単なるベンチマークではなくエージェントを訓練できる環境が提供されている点が大きく異なるように感じる。

[Paper Note] Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25, 2024.07

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #SoftwareEngineering #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-04-02 GPT Summary- 最近のLLMの進展により、ソフトウェア開発タスクの自動化が進んでいるが、複雑なエージェントアプローチの必要性に疑問が生じている。これに対し、Agentlessというエージェントレスアプローチを提案し、シンプルな三段階プロセスで問題を解決。SWE-bench Liteベンチマークで最高のパフォーマンスと低コストを達成。研究は自律型ソフトウェア開発におけるシンプルで解釈可能な技術の可能性を示し、今後の研究の方向性を刺激することを目指している。 Comment

日本語解説: https://note.com/ainest/n/nac1c795e3825

LLMによる計画の立案、環境からのフィードバックによる意思決定などの複雑なワークフローではなく、Localization（階層的に問題のある箇所を同定する）とRepair（LLMで複数のパッチ候補を生成する）、PatchValidation(再現テストと回帰テストの両方を通じて結果が良かったパッチを選ぶ）のシンプルなプロセスを通じてIssueを解決する。

これにより、低コストで高い性能を達成している、といった内容な模様。

Agentlessと呼ばれ手法だが、preprint版にあったタイトルの接頭辞だった同呼称がproceeding版では無くなっている。

[Paper Note] OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning, Pan Lu+, NAACL'25

Paper/Blog Link My Issue
#Tools #NLP #LanguageModel #Reasoning #NAACL #One-Line Notes Issue Date: 2025-02-20 GPT Summary- 複雑な推論タスクに対応するためのオープンソースエージェントフレームワーク「OctoTools」を提案。トレーニング不要で拡張可能なこのフレームワークは、標準化されたツールカードやプランナー、エグゼキューターを備え、16の多様なタスクでGPT-4oに対して平均9.3%の精度向上を達成。さらに、他の手法を最大10.6%上回る性能を示した。 Comment

元ポスト:

Loading…

NAACL'25でベストペーパーに選出:

Loading…

[Paper Note] Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?, Wenzhe Li+, TMLR'25, 2025.02

Paper/Blog Link My Issue
#NLP #LanguageModel #TMLR #read-later #Selected Papers/Blogs Issue Date: 2025-02-09 GPT Summary- Self-MoAは、単一の高性能LLMの出力を統合し、従来のMixture-of-Agents（MoA）を上回るアンサンブル手法である。実験では、Self-MoAがAlpacaEval 2.0で6.6%、様々なベンチマークで平均3.8%の改善を示し、新たな最先端性能を達成。MoAの性能は出力品質に敏感で、異なるLLMを混ぜると平均品質が低下することが確認された。さらに、Self-MoAの逐次版も導入し、複数ラウンドにわたって同等の統合効果を提供する。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=K6WwK8URlV

Towards Adaptive Mechanism Activation in Language Agent, Ziyang Huang+, COLING'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #COLING #PostTraining #One-Line Notes #needs-revision Issue Date: 2024-12-10 GPT Summary- 自己探索によるメカニズム活性化学習（ALAMA）を提案し、固定されたメカニズムに依存せずに適応的なタスク解決を目指す。調和のとれたエージェントフレームワーク（UniAct）を構築し、タスク特性に応じてメカニズムを自動活性化。実験結果は、動的で文脈に敏感なメカニズム活性化の有効性を示す。 Comment

元ポスト:

Loading…

手法としては、SFTとKTOを活用しpost trainingするようである

- [Paper Note] KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, ICML'24, 2024.02

[Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25

Paper/Blog Link My Issue
#InformationRetrieval #NLP #Dataset #Evaluation #Factuality #RAG(RetrievalAugmentedGeneration) #Reasoning #NAACL #One-Line Notes Issue Date: 2024-10-20 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

[Paper Note] DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents, Peter Jansen+, NeurIPS'24 Spotlight, 2024.06

Paper/Blog Link My Issue
#LanguageModel #Evaluation #ScientificDiscovery #NeurIPS #Selected Papers/Blogs #Science #One-Line Notes Issue Date: 2026-04-14 GPT Summary- DISCOVERYWORLDは、エージェントが科学的発見の全過程を実行できる初の仮想環境で、放射性同位体年代測定やロケット科学など多様な課題を提供します。タスクは一般的な発見スキルの育成を奨励し、シミュレーションされたテキスト環境で、オプションの2Dビジュアルオーバーレイもあります。120の課題は3つの難易度に分かれ、エージェントは仮説立案から結果分析までを行います。また、性能評価は課題完遂度や行動に基づき、自動指標で行われます。強力なベースラインエージェントが多くの課題で苦戦することから、DISCOVERYWORLDの新規性に関わる挑戦を捉えており、科学的発見能力の評価と開発を促進する可能性が示唆されます。 Comment

pj page: https://allenai.github.io/discoveryworld/

openreview: https://openreview.net/forum?id=cDYqckEt6d&referrer=%5Bthe%20profile%20of%20Bhavana%20Dalvi%20Mishra%5D(%2Fprofile%3Fid%3D~Bhavana_Dalvi_Mishra2)

ベンチマークの概要は
- Evaluating agents for scientific discovery, Ai2, 2026.04

参照のこと。

[Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01

Paper/Blog Link My Issue
#Dataset #Evaluation #MultiModal #ACL #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes #GUI Issue Date: 2025-11-25 GPT Summary- WebVoyagerは、実際のウェブサイトと対話しユーザーの指示をエンドツーエンドで完了できる大規模マルチモーダルモデルを搭載したウェブエージェントである。新たに設立したベンチマークで59.1%のタスク成功率を達成し、GPT-4やテキストのみのWebVoyagerを上回る性能を示した。提案された自動評価指標は人間の判断と85.3%一致し、ウェブエージェントの信頼性を高める。 Comment

日本語解説: https://blog.shikoan.com/web-voyager/

スクリーンショットを入力にHTMLの各要素に対してnumeric labelをoverlayし（Figure2)、VLMにタスクを完了するためのアクションを出力させる手法。アクションはFigure7のシステムプロンプトに書かれている通り。

たとえば、VLMの出力として"Click [2]" が得られたら GPT-4-Act GPT-4V-Act, ddupont808, 2023.10 と呼ばれるSoM [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 をベースにWebUIに対してマウス/キーボードでinteractできるモジュールを用いることで、[2]とマーキングされたHTML要素を同定しClick操作を実現する。

[Paper Note] Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, Adam Fourney+, arXiv'24, 2024.11

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Library Issue Date: 2025-11-25 GPT Summary- 高性能なオープンソースエージェントシステム「Magentic-One」を提案。マルチエージェントアーキテクチャを用いて計画、進捗追跡、エラー回復を行い、専門エージェントにタスクを指示。GAIA、AssistantBench、WebArenaのベンチマークで競争力のあるパフォーマンスを達成。モジュラー設計により、エージェントの追加や削除が容易で、将来の拡張が可能。オープンソース実装とエージェント評価ツール「AutoGenBench」を提供。詳細は公式サイトで確認可能。 Comment

日本語解説: https://zenn.dev/masuda1112/articles/2024-11-30-magnetic-one

blog: https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
code: https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one

[Paper Note] AgentInstruct: Toward Generative Teaching with Agentic Flows, Arindam Mitra+, arXiv'24, 2024.07

Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #PostTraining Issue Date: 2025-11-25 GPT Summary- 合成データは言語モデルの開発に重要であり、本研究では「Generative Teaching」と呼ばれる手法を提案。高品質な合成データを自動生成する「AgentInstruct」フレームワークを用いて、2500万ペアのポストトレーニングデータセットを作成。これにより、Mistral-7bをポストトレーニングしたモデルOrca-3は、複数のベンチマークで顕著な性能向上を示し、他のモデルに対しても優れた結果を得た。 Comment

[Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #NeurIPS #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 GPT Summary- LMエージェントのパフォーマンスにおけるインターフェースデザインの影響を調査し、ソフトウェアエンジニアリングタスクを解決するためのシステム「SWE-agent」を提案。SWE-agentのカスタムインターフェースは、コード作成やリポジトリナビゲーション、プログラム実行能力を向上させ、SWE-benchとHumanEvalFixで最先端のパフォーマンスを達成。pass@1率はそれぞれ12.5%と87.7%に達し、従来の非インタラクティブなLMを大きく上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=mXpq6ut8J3&referrer=%5Bthe%20profile%20of%20Shunyu%20Yao%5D(%2Fprofile%3Fid%3D~Shunyu_Yao1)

SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent

[Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Tianbao Xie+, arXiv'24, 2024.04

Paper/Blog Link My Issue
#ComputerVision #NLP #Evaluation #MultiModal #VisionLanguageModel #Environment Issue Date: 2025-08-29 GPT Summary- 自律エージェントは、複雑なコンピュータ作業を最小限の人間介入で達成し、生産性を向上させる可能性を持つ。しかし、既存のベンチマークは対話的環境の欠如や特定のドメインに限定され、スケーラビリティを制限している。これに対処するため、OSWorldという実機コンピュータ環境を提案し、様々なOSにまたがるマルチモーダルエージェント向けの統一環境を提供。369のコンピュータタスクを現実世界の利用ケースに基づいて評価するためのベンチマークを作成。評価の結果、最先端のLLM/VLMベースのエージェントは人間の72.36%に対しわずか12.24%の成功しか得られず、GUIのグラウンディングと運用知識の不足が主な要因であることが明らかになった。OSWorldは汎用エージェントの開発に向けた有益なインサイトを提供する。 Comment

openreview: https://openreview.net/forum?id=tN61DTr4Ed#discussion

マルチモーダル AI Agentを評価するための実コンピュータでの仮想環境が提供されており、Ubuntu, Windows, macOS等でのキーボード、マウスコントロールを受け付ける。396の実際のユーザが直面するシナリオが定義されており、タスクごとにinitial stateが定義され、実際にタスクを実行することをベースにした評価を実行可能。

タスクとタスクの実行結果を評価するためのスクリプトの例が以下で、たとえばAmazonのcookieを全て削除する依頼や、エクセルの操作を実施するようなタスクなど、多様なタスクが用意されている。

Agentが実施可能なアクションの一部は下記で、マウス操作、キーボード入力を通じて実行可能なアクションが定義されている。

[Paper Note] Agent Workflow Memory, Zora Zhiruo Wang+, arXiv'24, 2024.09

Paper/Blog Link My Issue
#NLP #LanguageModel #memory #One-Line Notes #needs-revision Issue Date: 2025-04-02 GPT Summary- エージェントが複雑なタスクを解決するために、再利用可能なワークフローを学習するAgent Workflow Memory（AWM）を提案。AWMは、オフライン・オンラインのシナリオで選択的にワークフローを提供し、200以上のドメインにおいて実験した結果、Mind2Webで24.6%、WebArenaで51.1%の相対的成功率向上を達成。タスク解決に要する手順数も削減し、訓練-テスト分布ギャップが広がる中でも堅牢な一般化を示した。 Comment

過去のワークフローをエージェントがprompt中で利用することができ、利用すればするほど賢くなるような仕組みの提案

openreview: https://openreview.net/forum?id=PfYg3eRrNi

[Paper Note] CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration, Xinming Hou+, arXiv'24, 2024.06

Paper/Blog Link My Issue
#NLP #LanguageModel #SoftwareEngineering #One-Line Notes Issue Date: 2025-04-02 GPT Summary- CoActフレームワークを提案し、LLMに人間社会の協調パターンを適用。グローバル計画エージェントがマクロ計画を策定し、ローカル実行エージェントが具体的なサブタスクを実行。WebArenaベンチマークで、長期的なウェブタスクにおいて従来手法を上回る性能を示した。 Comment

Planningエージェントと実行エージェントを活用するソフトウェアエージェント

ReActより性能向上
- [Paper Note] ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao+, ICLR'23, 2022.10

[Paper Note] WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-04-02 GPT Summary- 生成AIの進展により、自律エージェントが自然言語コマンドで日常タスクを管理する可能性が生まれたが、現行のエージェントは簡略化された環境でのテストに限られている。本研究では、ウェブ上でタスクを実行するエージェントのための現実的な環境を構築し、eコマースやソーシャルフォーラムなどのドメインを含む完全なウェブサイトを提供する。この環境を基に、タスクの正確性を評価するベンチマークを公開し、実験を通じてGPT-4ベースのエージェントの成功率が14.41%であり、人間の78.24%には及ばないことを示した。これにより、実生活のタスクにおけるエージェントのさらなる開発の必要性が強調される。 Comment

Webにおけるさまざまなrealisticなタスクを評価するためのベンチマーク

実際のexample。スタート地点からピッツバーグのmuseumを巡る最短の経路を見つけるといった複雑なタスクが含まれる。

人間とGPT4,GPT-3.5の比較結果

[Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #ICLR #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-04-02 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

ソフトウェアエージェントの最もpopularなベンチマーク

主にpythonライブラリに関するリポジトリに基づいて構築されている。

SWE-Bench, SWE-Bench Lite, SWE-Bench Verifiedの3種類がありソフトウェアエージェントではSWE-Bench Verifiedを利用して評価することが多いらしい。Verifiedでは、issueの記述に曖昧性がなく、適切なunittestのスコープが適切なもののみが採用されているとのこと（i.e., 人間の専門家によって問題がないと判断されたもの）。
https://www.swebench.com/

Agenticな評価をする際に、一部の評価でエージェントがgit logを参照し本来は存在しないはずのリポジトリのfuture stateを見ることで環境をハッキングしていたとのこと:

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

[Paper Note] PromptWizard: Task-Aware Prompt Optimization Framework, Eshaan Agarwal+, arXiv'24, 2024.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Prompting #AutomaticPromptEngineering #One-Line Notes Issue Date: 2025-02-10 GPT Summary- 大規模言語モデル（LLMs）の効果的な活用に向けて、完全自動化されたプロンプト最適化フレームワーク「PromptWizard」を提案。自己進化・自己適応機能に基づき、プロンプトと文脈内例を反復的に洗練し、優れた品質のプロンプトを生成。45のタスクで高性能を示し、限られたデータや小規模モデルでも適用可能。コスト分析により効率性と優位性が確認される。 Comment

Github: https://github.com/microsoft/PromptWizard?tab=readme-ov-file
元ポスト:

Loading…

初期に提案された
- Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR'23

と比較すると大分性能が上がってきているように見える。

reasoning modelではfewshot promptingをすると性能が落ちるという知見があるので、reasoningモデル向けのAPE手法もそのうち出現するのだろう（既にありそう）。

OpenReview: https://openreview.net/forum?id=VZC9aJoI6a
ICLR'25にrejectされている

[Paper Note] Chain of Agents: Large Language Models Collaborating on Long-Context Tasks, Yusen Zhang+, arXiv'24, 2024.06

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ContextWindow #Blog #NeurIPS #LongHorizon #Initial Impression Notes Issue Date: 2025-01-25 GPT Summary- 長い文脈を処理するために、Chain-of-Agents（CoA）フレームワークを提案。複数のワーカーエージェントが逐次的に情報を集約し、マネージャーエージェントが最終出力を統合。各エージェントに短い文脈を割り当てることで焦点の問題を軽減し、質問応答や要約などのタスクで最大10%の性能向上を実現。 Comment

元ポスト:

Loading…

LLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様

ブログ中にアプローチを解説した動画があるのでわかりやすい

Is the experimental code open source?

Thank you for your comment. I tried to find an official open-source implementation provided by the authors, but I was not able to locate one. In fact, I also checked the personal webpage of the first author, but there was no link to any released code.

Is seems that an unofficial implementation is listed under the “Code” tab on the NeurIPS page. I hope this is helpful. Thank you.

NeurIPS link: https://nips.cc/virtual/2024/poster/95563
openreview: https://openreview.net/forum?id=LuCLf4BJsr

[Paper Note] MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv'24, 2024.11

Paper/Blog Link My Issue
#Multi #NLP #Dataset #SyntheticData #Evaluation Issue Date: 2025-01-03 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…

[Paper Note] TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24, 2024.12

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #NeurIPS #Selected Papers/Blogs #Surface-level Notes #Author Thread-Post Issue Date: 2025-01-03 GPT Summary- 大規模言語モデル（LLMs）によるAIエージェントの進展が、日常業務の効率化にどのように寄与するかを探求。TheAgentCompanyを通じて、AIエージェントがデジタル労働者のように働く能力を評価する拡張可能なベンチマークを導入。模擬のソフトウェア企業環境で、タスクの自律的完了率は30％に達し、単純なタスクは成功する一方、複雑な長期タスクは今のモデルでは難しいことを示す。 Comment

元ポスト:

Loading…

ソフトウェアエンジニアリングの企業の設定で現実に起こりうるな　175種類のタスクを定義してAI Agentを評価できるベンチマークTheAgentCompanyを提案。

既存のベンチマークより、多様で、実際のソフトウェアエンジニアリング企業でで起こりうる幅広いタスクを持ち、タスクの遂行のために同僚に対して何らかのインタラクションが必要で、達成のために多くのステップが必要でかつ個々のステップ（サブタスク）を評価可能で、多様なタスクを遂行するために必要な様々なインタフェースをカバーし、self hostingして結果を完全に再現可能なベンチマークとなっている模様。

Loading…

（画像は著者ツイートより引用）

プロプライエタリなモデルとOpenWeightなモデルでAI Agentとしての能力を評価した結果、Claude-3.5-sonnetは約24%のタスクを解決可能であり、他モデルと比べて性能が明らかに良かった。また、Gemini-2.0-flashなコストパフォーマンスに優れている。OpenWeightなモデルの中ではLlama3.3-70Bのコストパフォーマンスが良かった。タスクとしては具体的に評価可能なタスクのみに焦点を当てており、Open Endなタスクでは評価していない点に注意とのこと。

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

openreview: https://openreview.net/forum?id=LZnKNApvhG

Generative Agent Simulations of 1,000 People, Joon Sung Park+, arXiv'24

Paper/Blog Link My Issue
#NLP Issue Date: 2024-11-27 GPT Summary- 新しいエージェントアーキテクチャを提案し、1,052人の実在の個人の態度と行動を85%の精度で再現。大規模言語モデルを用いた質的インタビューに基づき、参加者の回答を正確にシミュレート。人口統計的説明を用いたエージェントと比較して、精度バイアスを軽減。個人および集団の行動調査の新しいツールを提供。

GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv'24

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #One-Line Notes #needs-revision Issue Date: 2024-11-12 GPT Summary- (M)LLMを活用したGUIエージェントの研究を統合し、データセット、フレームワーク、アプリケーションの革新を強調。重要なコンポーネントをまとめた統一フレームワークを提案し、商業アプリケーションを探求。課題を特定し、今後の研究方向を示唆。 Comment

Referenceやページ数はサーベイにしては少なめに見える。

[Paper Note] Beyond Browsing: API-Based Web Agents, Yueqi Song+, arXiv'24, 2024.10

Paper/Blog Link My Issue
#NLP #API #read-later Issue Date: 2024-11-11 GPT Summary- APIを利用したAIエージェントの研究が進んでおり、従来のウェブブラウジングタスクに新たなアプローチを提供する。2種類のエージェントを提案：API呼び出しエージェントはAPIのみを使用し、ハイブリッドエージェントはウェブ閲覧とAPIの両方を活用する。実験結果では、APIエージェントがウェブブラウジングエージェントを上回り、ハイブリッドエージェントは全タスクで優れた性能を示し、成功率は38.9%に達するなど、APIの利用が効果的であることを示唆している。 Comment

CMUの研究。後で読みたい

[Paper Note] ToolGen: Unified Tool Retrieval and Calling via Generation, Renxi Wang+, arXiv'24, 2024.10

Paper/Blog Link My Issue
#Pretraining #Tools #NLP #LanguageModel #Supervised-FineTuning (SFT) #ICLR #PostTraining #KeyPoint Notes #Reading Reflections Issue Date: 2024-10-20 GPT Summary- ToolGenは、LLMとツールの統合を革新する新しいアプローチを提案する。ツールをユニークなトークンとして表現し、ツール知識を直接LLMのパラメータに組み込むことで、ツール呼び出しと生成をシームレスに実現する。このフレームワークにより、追加ステップなしで多数のツールにアクセスでき、性能とスケーラビリティが向上する。47,000以上のツールでの実験結果は、ToolGenが自律的なタスク完遂において優れた成果を示し、多様な領域に適応可能なAIエージェントの新時代を切り開くことを示唆している。さらに、エンドツーエンドのツール学習を可能にし、他の高度な技術との統合機会を提供することで、LLMsの実践的な能力を拡張する。 Comment

昔からよくある特殊トークンを埋め込んで、特殊トークンを生成したらそれに応じた処理をする系の研究。今回はツールに対応するトークンを仕込む模様。

斜め読みだが、3つのstepでFoundation Modelを訓練する。まずはツールのdescriptionからツールトークンを生成する。これにより、モデルにツールの情報を覚えさせる（memorization）。斜め読みなので読めていないが、ツールトークンをvocabに追加してるのでここは継続的事前学習をしているかもしれない。続いて、（おそらく）人手でアノテーションされたクエリ-必要なツールのペアデータから、クエリに対して必要なツールを生成するタスクを学習させる。最後に、（おそらく人手で作成された）クエリ-タスクを解くためのtrajectoryペアのデータで学習させる。

学習データのサンプル。Appendix中に記載されているものだが、本文のデータセット節とAppendixの双方に、データの作り方の詳細は記述されていなかった。どこかに書いてあるのだろうか。

最終的な性能

特殊トークンを追加のvocabとして登録し、そのトークンを生成できるようなデータで学習し、vocabに応じて何らかの操作を実行するという枠組み、その学習手法は色々なタスクで役立ちそう。

openreview: https://openreview.net/forum?id=XLMAMmowdY

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv'24

Paper/Blog Link My Issue
#NLP #LanguageModel #ScientificDiscovery Issue Date: 2024-08-13 GPT Summary- 最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。

[Paper Note] Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback, Baolin Peng+, arXiv'23, 2023.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Factuality #RAG(RetrievalAugmentedGeneration) #AutomaticPromptEngineering Issue Date: 2025-09-24 GPT Summary- LLM-Augmenterシステムを提案し、LLMが外部知識に基づいた応答を生成できるように拡張。フィードバックを用いてプロンプトを改善し、タスク指向の対話と質問応答での有効性を実証。ChatGPTの幻覚を減少させつつ、流暢さや情報量を維持。ソースコードとモデルを公開。

GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #QuestionAnswering #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

Meta-FAIR, Meta-GenAI, HuggingFace, AutoGPTによる研究。人間は92%正解できるが、GPT4でも15%しか正解できないQAベンチマーク。解くために推論やマルチモダリティの処理、ブラウジング、ツールに対する習熟などの基本的な能力を必要とする実世界のQAとのこと。

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

[Paper Note] MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation, Qian Huang+, arXiv'23, 2023.10

Paper/Blog Link My Issue
#MachineLearning #NLP #Dataset #LanguageModel #Evaluation #AutoML #One-Line Notes Issue Date: 2023-10-09 GPT Summary- 機械学習の実験を行うためのエージェントを強力な言語モデルを用いて構築し、MLAgentBenchという13のタスクベンチマークを導入。エージェントはファイル操作やコード実行を行い、Claude v3 Opusが最も高い成功率を示す。タスク全体で平均成功率37.5%を達成するが、結果はデータセットによって大きく変動。長期計画や幻覚の低減といった重要な課題も明らかにした。コードは公開中。 Comment

GPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク（新たなKaggle Challenge等）では30%程度とのこと。

[Paper Note] A Survey on Large Language Model based Autonomous Agents, Lei Wang+, arXiv'23, 2023.08

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #Selected Papers/Blogs #One-Line Notes Issue Date: 2023-09-01 GPT Summary- LLMを活用した自律エージェントの研究を体系的に整理し、構築方法や応用例、評価戦略を概説。人間の学習に近づくための課題と今後の方向性を示す。関連文献のリポジトリも提供。 Comment

Fig1の時系列での論文数と代表的な研究のリストアップとエージェントの質の変遷、Table1のモデルの分類表など非常に分かりやすい。

[Paper Note] Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, arXiv'23, 2023.08

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #DataAugmentation #Supervised-FineTuning (SFT) #SyntheticData #EMNLP #PostTraining #Selected Papers/Blogs #System Demonstration #KeyPoint Notes #Author Thread-Post Issue Date: 2023-08-28 GPT Summary- Prompt2Modelは、LLMによるプロンプトを用いて特定用途モデルを訓練する方法を提案。既存データセットの検索とLLMを使ったデータ生成により、強力なモデルを得られる。提示したプロンプトで、gpt-3.5-turboの結果を約20%上回り、最大700倍小型化できる。モデルの性能を信頼性高く推定可能で、オープンソースとして公開。 Comment

Dataset Generatorによって、アノテーションが存在しないデータについても擬似ラベル付きデータを生成することができ、かつそれを既存のラベル付きデータと組み合わせることによってさらに性能が向上することが報告されている。これができるのはとても素晴らしい。

Dataset Generatorについては、データを作成する際に低コストで、高品質で、多様なデータとするためにいくつかの工夫を実施している。
1. ユーザが与えたデモンストレーションだけでなく、システムが生成したexampleもサンプリングして活用することで、生成されるexampleの多様性を向上させる。実際、これをやらない場合は120/200がduplicate exampleであったが、これが25/200まで減少した。
2. 生成したサンプルの数に比例して、temperatureを徐々に高くしていく。これにより、サンプルの質を担保しつつ、多様性を徐々に増加させることができる。Temperature Annealingと呼ぶ。
3. self-consistencyを用いて、擬似ラベルの質を高める。もしmajority votingが互角の場合は、回答が短いものを採用した（これはヒューリスティックに基づいている）
4. zeno buildを用いてAPIへのリクエストを並列化することで高速に実験を実施

非常に参考になる。

著者らによる現在の視点での振り返り（提案当時はAI Agentsという概念はまだなく、本研究はその先取りと言える）:

Loading…

AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv'23

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #One-Line Notes Issue Date: 2023-08-27 GPT Summary- 本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 Comment

エージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。
トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。

[Paper Note] MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework, Sirui Hong+, arXiv'23, 2023.08

Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2023-08-08 GPT Summary- MetaGPTは、LLMベースのマルチエージェントシステムに人間のワークフローを統合し、複雑なタスクを小さなサブタスクに効率的に分解するメタプログラミングフレームワークです。これにより、中間結果の検証が可能になり、誤りを減少させます。また、共同ソフトウェアエンジニアリングのタスクにおいて、従来のシステムよりも一貫性のある解決策を提供します。プロジェクトはGitHubで公開されています。 Comment

要はBabyTalk, AutoGPTの進化系で、人間のワークフローを模倣するようにデザインしたら良くなりました、という話と思われる

ソフトウェアエンジニア、アーキテクト、プロダクトオーナー、プロジェクトマネージャーなどのロールを明示的に与えて、ゴールを目指す。もはやLLM内部でソフトウェア企業を模倣しているのと同様である。

openreview: https://openreview.net/forum?id=VtmBAGCN7o

[Paper Note] ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs, Yujia Qin+, arXiv'23, 2023.07

Paper/Blog Link My Issue
#Tools #NLP #Dataset #LanguageModel #SyntheticData #API #ICLR #One-Line Notes #ToolUse Issue Date: 2023-08-08 GPT Summary- オープンソースのLLMにおけるツール使用能力の限界を克服するため、ToolLLMフレームワークを提案。ToolBenchデータセットを用いて、ChatGPTに指示を与え実世界のAPIを収集し、多様なシナリオをカバー。新しい探索手法DFSDTを開発することで、LLMsの推論能力を高め、ToolLLaMAが複雑な指示を効果的に実行できることを示した。ToolEvalにより評価を行い、ToolLLaMAはChatGPTと同等の性能を発揮する。さらに、適切なAPIを推奨するニューラルAPIリトリーバーを導入し、手動の選択を不要にした。 Comment

16000のreal worldのAPIとインタラクションし、データの準備、訓練、評価などを一貫してできるようにしたフレームワーク。LLaMAを使った場合、ツール利用に関してturbo-16kと同等の性能に達したと主張。

openreview: https://openreview.net/forum?id=dHng2O0Jjr

Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv'23

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel Issue Date: 2023-07-22 GPT Summary- 本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。

[Paper Note] Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, arXiv'23, 2023.06

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2023-07-03 GPT Summary- Mind2Webは、ウェブ上での汎用的なタスクをこなすエージェントの開発のための初のデータセットで、137のウェブサイトと31のドメインにまたがる2,000件以上のオープンエンドタスクを収集。これにより、多様なドメイン・タスクを扱え、実世界のサイトを対象にしたエージェント構築を支援。大規模言語モデル（LLMs）を用いることで、未見のウェブサイトでも一定の性能を発揮することを示し、データセットとモデルをオープンソース化して研究の促進を目指す。 Comment

Webにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。

タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまたいだ汎化性能を評価できる。

プロジェクトサイト:
https://osu-nlp-group.github.io/Mind2Web/

[Paper Note] Think Before You Act: Decision Transformers with Working Memory, Jikun Kang+, arXiv'23, 2023.05

Paper/Blog Link My Issue
#NLP #Transformer Issue Date: 2023-06-16 GPT Summary- Decision Transformerベースのエージェントは複数タスクの一般化能力を示すが、大量のデータと計算資源に依存している。訓練中の忘却現象が新タスクの性能低下を引き起こすと考え、分散型の記憶ストレージを用いる人間の脳に着想を得て、作業記憶モジュールを提案。評価結果は、AtariゲームとMeta-Worldのタスクで訓練効率と一般化の向上を示し、メモリ微調整が適応性をさらに強化することを証明。

[Paper Note] ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao+, ICLR'23, 2022.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Selected Papers/Blogs #needs-revision Issue Date: 2023-04-13 GPT Summary- 大規模言語モデルを用いて、推論と行動計画を相互に組み合わせるReActアプローチを提案。推論の痕跡が行動計画の導出を促進し、行動が外部情報を活用することで、推論の効率を向上。質問応答や事実検証タスクで従来手法を凌駕し、人間の解釈性と信頼性を向上させる。対話的意思決定ベンチマークでも優れた性能を発揮。 Comment

# 概要

人間は推論と行動をシナジーさせることで、さまざまな意思決定を行える。近年では言語モデルにより言語による推論を意思決定に組み合わせる可能性が示されてきた。たとえば、タスクをこなすための推論トレースをLLMが導けることが示されてきた（Chain-of-Thought）が、CoTは外部リソースにアクセスできないため知識がアップデートできず、事後的に推論を行うためhallucinationやエラーの伝搬が生じる。一方で、事前学習言語モデルをinteractiveな環境において計画と行動に利用する研究が行われているが、これらの研究では、高レベルの目標について抽象的に推論したり、行動をサポートするための作業記憶を維持したりするために言語モデルを利用していない。推論と行動を一般的な課題解決のためにどのようにシナジーできるか、またそのようなシナジーが単独で推論や行動を実施した場合と比較してどのような利益をもたらすかについて研究されていない。

そこで、REACTを提案。REACTは推論と行動をLLMと組み合わせて、多様な推論や意思決定タスクを実現するための一般的な枠組みであり、推論トレースとアクションを交互に生成するため、動的に推論を実行して行動するための大まかな計画を作成、維持、調整できると同時に、wikipediaなどの外部ソースとやりとりして追加情報を収集し、推論プロセスに組み込むことが可能となる。

- 要はいままではGeneralなタスク解決モデルにおいては、推論とアクションの生成は独立にしかやられてこなかったけど、推論とアクションを交互作用させることについて研究したよ

- そしたら性能がとってもあがったよ

- reasoningを人間が編集すれば、エージェントのコントロールもできるよ　という感じ

# イントロ

人間は推論と行動の緊密なシナジーによって、不確実な状況に遭遇しても適切な意思決定が行える。たとえば、任意の2つの特定のアクションの間で、進行状況をトレースするために言語で推論したり（すべて切り終わったからお湯を沸かす必要がある）、例外を処理したり、状況に応じて計画を調整したりする（塩がないから代わりに醤油と胡椒を使おう）。また、推論をサポートし、疑問（いまどんな料理を作ることができるだろうか？）を解消するために、行動（料理本を開いてレシピを読んで、冷蔵庫を開いて材料を確確認したり）をすることもある。

近年の研究では言語での推論を、インタラクティブな意思決定を組み合わせる可能性についてのヒントが得られてきた。一つは、適切にPromptingされたLLMが推論トレースを実行できることを示している。推論トレースとは、解決策に到達するための一連のステップを経て推論をするためのプロセスのことである。しかしながらChain-of-thoughytは、このアプローチでは、モデルが外界対してgroundingできず、内部表現のみに基づい思考を生成するため限界がある。これによりモデルが事後対応的に推論したり、外部情報に基づいて知識を更新したりできないため、推論プロセス中にhallucinationやエラーの伝搬などの問題が発生する可能性が生じる。

一方、近年の研究では事前学習言語モデルをinteractiveな環境において計画と行動に利用する研究が行われている。これらの研究では、通常マルチモーダルな観測結果をテキストに変換し、言語モデルを使用してドメイン固有のアクション、またはプランを生成し、コントローラーを利用してそれらを選択または実行する。ただし、これらのアプローチは高レベルの目標について抽象的に推論したり、行動をサポートするための作業記憶を維持したりするために言語モデルを利用していない。

推論と行動を一般的な課題解決のためにどのようにシナジーできるか、またそのようなシナジーが単独で推論や行動を実施した場合と比較してどのような利益をもたらすかについて研究されていない。

LLMにおける推論と行動を組み合わせて、言語推論と意思決定タスクを解決するREACTと呼ばれる手法を提案。REACTでは、推論と行動の相乗効果を高めることが可能。推論トレースによりアクションプランを誘発、追跡、更新するのに役立ち、アクションでは外部ソースと連携して追加情報を収集できる。

REACTは推論と行動をLLMと組み合わせて、多様な推論や意思決定タスクを実現するための一般的な枠組みである。REACTのpromptはLLMにverbalな推論トレースとタスクを実行するためのアクションを交互に生成する。これにより、モデルは動的な推論を実行して行動するための大まかな計画を作成、維持、調整できると同時に、wikipediaなどの外部ソースとやりとりして追加情報を収集し、推論プロセスに組み込むことが可能となる。

# 手法

変数を以下のように定義する：

- O_t: Observertion on time t

- a_t: Action on time t

- c_t: context, i.e. (o_1, a_1, o_2, a_2, ..., a_t-1, o_t)

- policy pi(a_t | c_t): Action Spaceからアクションを選択するポリシー

- A: Action Space

- O: Observation Space

普通はc_tが与えられたときに、ポリシーに従いAからa_tを選択しアクションを行い、アクションの結果o_tを得て、c_t+1を構成する、といったことを繰り返していく。

このとき、REACTはAをA ∪ Lに拡張しする。ここで、LはLanguage spaceである。LにはAction a_hatが含まれ、a_hatは環境に対して作用をしない。単純にthought, あるいは reasoning traceを実施し、現在のcontext c_tをアップデートするために有用な情報を構成することを目的とする。Lはunlimitedなので、事前学習された言語モデルを用いる。今回はPaLM-540B（c.f. GPT3は175Bパラメータ）が利用され、few-shotのin-context exampleを与えることで推論を行う。それぞれのin-context exampleは、action, thoughtsそしてobservationのtrajectoryを与える。

推論が重要なタスクでは、thoughts-action-observationステップから成るtask-solving trajectoryを生成する。一方、多数のアクションを伴う可能性がある意思決定タスクでは、thoughtsのみを行うことをtask-solving trajectory中の任意のタイミングで、自分で判断して行うことができる。

意思決定と推論能力がLLMによってもたらされているため、REACTは4つのuniqueな特徴を持つ：

- 直感的で簡単なデザイン

- REACTのpromptは人間のアノテータがアクションのトップに思考を言語で記述するようなストレートなものであり、ad-hocなフォーマットの選択、思考のデザイン、事例の選定などが必要ない。

- 一般的で柔軟性が高い

- 柔軟な thought spaceと thought-actionのフォーマットにより、REACTはさまざまなタスクにも柔軟に対応できる

- 高性能でロバスト

- REACTは1-6個の事例によって、新たなタスクに対する強力な汎化を示す。そして推論、アクションのみを行うベースラインよりも高い性能を示している。REACTはfinetuningの斧系も得ることができ、promptの選択に対してREACTの性能はrobustである。

- 人間による調整と操作が可能

- REACTは、解釈可能な意思決定と推論のsequenceを前提としているため、人間は簡単に推論や事実の正しさを検証できる。加えて、thoughtsを編集することによって、m人間はエージェントの行動を制御、あるいは修正できる。

# KNOWLEDGE INTENSIVE REASONING TASKS

openreview: https://openreview.net/forum?id=tvI4u1ylcqs

[Paper Note] Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, NeurIPS'23, 2023.03

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SelfCorrection #NeurIPS #PostTraining #Initial Impression Notes Issue Date: 2023-03-28 GPT Summary- LLMを用いた言語エージェントが外部環境と相互作用しつつ、迅速な学習を可能にする新しいフレームワーク「Reflexion」を提案。言語的フィードバックを活用し、エージェントはタスクのフィードバックを反映、エピソディックメモリに保持して意思決定を改善。多様なフィードバック信号を取り入れ、様々なタスクで大幅な性能向上を実現。HumanEvalベンチマークでは91%のpass@1精度を達成し、従来の最先端を超える成果を示した。 Comment

なぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究

openreview: https://openreview.net/forum?id=vAElhFcKW6

[Paper Note] ScienceWorld: Is your Agent Smarter than a 5th Grader?, Ruoyao Wang+, EMNLP'22, 2022.03

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #ScientificDiscovery #EMNLP #Selected Papers/Blogs #Science #One-Line Notes Issue Date: 2026-04-14 GPT Summary- ScienceWorldは、小学校の科学カリキュラムに基づき、エージェントの科学的推論能力を評価するための対話型テキスト環境を提供します。従来のモデルは、新しい文脈で学んだ科学概念を推論するのが苦手で、特に未知の材料の伝導率を見つけるための実験方法を問われると苦戦します。これは、モデルが類似例から答えを得ているのか、再利用可能な方法で推論を学んでいるのかという疑問を生み出します。私たちは、エージェントは対話型環境にグラウンディングされることで推論能力を得るべきだと仮定し、150万パラメータのエージェントが10万ステップの対話型訓練を受けた結果、静的訓練を受けた110億パラメータのモデルを上回ることを実証しました。 Comment

ベンチマークの概要は
- Evaluating agents for scientific discovery, Ai2, 2026.04

参照のこと。

Anthropic Just Dropped the Biggest Subagent Upgrade Yet, Ray Amjad, YouTube, 2026.04

Paper/Blog Link My Issue
#Article #NLP #Video #ContextEngineering #One-Line Notes Issue Date: 2026-04-24 Comment

元ポスト:

Loading…

サブエージェントを構築する際に、メインエージェントの過去のcontextを全て継承することが可能な方式が実装されたようで（従来はcontextをメインとサブが共有しない方法が主流）、サブエージェントはメインエージェントのcontextを全て使いresultを得て、resultのみをメインエージェントに返すような挙動が実現可能。

Xiaomi MiMo-V2.5-Pro: A leap in agentic and long horizon coherence, Xiaomi, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Coding #OpenWeight Issue Date: 2026-04-23 Comment

元ポスト:

Loading…

いずれモデルをオープンにするとのこと

Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model, Qwen Team, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #OpenWeight #SoftwareEngineering #One-Line Notes Issue Date: 2026-04-23 Comment

HF: https://huggingface.co/Qwen/Qwen3.6-27B

元ポスト:

Loading…

Qwen3.5-397B-A17Bを主要なcodingベンチマークで上回り、同等程度の規模感のdenseモデルを上回る。

Deep Research Max: a step change for autonomous research agents, Google, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #DeepResearch #Author Thread-Post Issue Date: 2026-04-22 Comment

元ポスト:

Loading…

Gemini APIからの使い方:

Loading…

inclusionAI: Ling-2.6-flash （free）, OpenRouter （InclusionAI）, 2026.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #MoE(Mixture-of-Experts) #Reference Collection #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-22 Comment

元ポスト:

Loading…

Lingの最新モデル。元ポストに強みが簡潔に書かれている。OpenRouterで1週間freeで利用可能で、今後商用モデルのLingDTのリリースも控えているとこと。

また、将来的に本モデルはオープンになる予定とのこと。

Artificial Analysisによる評価:

Loading…

ML Intern, HuggingFace, 2026.04

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AutoML #ScientificDiscovery #Initial Impression Notes Issue Date: 2026-04-21 Comment

元ポスト:

Loading…

自動で研究が可能なエコシステムがどんどん構築されていく

Kimi K2.6: Advancing Open-Source Coding, Kimi, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2026-04-21 Comment

ブログ中ではまずはAgenticな能力の評価が掲載されており、スコアとしてはOpus 4.6と同等程度の水準に達している。

Kimi-K2.5と同様Agent Swarmを採用している。
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

推論・知識に関するベンチマーク（AIME, HMMT, GPQA-Diamond）などについては、Opus4.6と比較してスコアが高いのはIMO-AnswerBenchと呼ばれるものだけであり、他は同等かスコアが低くなっている。Vision系のベンチマークでは、全体的にOpus4.6よりもスコアが高い。ただし、Gemini-3.1-Pro, GPT-5.4の方がKimi K2.6よりもスコアが全体として高い。

他にも5日間にわたる監視システムのようなプロアクティブなエージェントとしても活用でき、独自ベンチマークのKimiClawBenchと呼ばれるものでK2.5を上回った旨が記述されているが、詳細不明。

元ポスト:

Loading…

HF: https://huggingface.co/moonshotai/Kimi-K2.6

その他ベンチマーク情報:

Loading…

プロンプトの再現性をAI に自動チューニングさせる方法 ~ 暗黙知を排除する, mizchi, 2026.04

Paper/Blog Link My Issue
#Article #NLP #Prompting #Blog #SoftwareEngineering Issue Date: 2026-04-20 Comment

元ポスト:

Loading…

nanomem: An Extremely Simple, Inference-Time Memory Module, The Open Anonymity Project, 2026.04

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Personalization #SoftwareEngineering #Selected Papers/Blogs #Privacy #memory #One-Line Notes Issue Date: 2026-04-19 Comment

github: https://github.com/OpenAnonymity/nanomem

元ポスト:

Loading…

マークダウン形式でメモリを管理するシンプルな実装で、シンプルながらもさまざまな利点を持つとのこと:

- マークダウンで管理されているためメモリ情報をディレクトリ分けするだけで簡単に分離できる
- ただのテキストファイルなので可用性が高く、ユーザ自身が保持できる
- テキストファイルなのでなので、解釈ができ、ユーザ自身が編集できる
- 前方互換性があり、モデルが賢くなっても同じ方法でメモリを読み込め、モデルの性能が上がるとメモリ自身の性能（スピード、品質）も向上する
- モジュール化が可能で、取り込み、検索、圧縮などを個別に最適化できる

Act I:
- Unlinkable Inference as a User Privacy Architecture, The Open Anonymity Project, 2026.02

8 Tips for Writing Agent Skills, Philipp Schmid, 2026.04

Paper/Blog Link My Issue
#Article #NLP #read-later #AgentSkills #Author Thread-Post Issue Date: 2026-04-17

FrontierSWE: Benchmarking coding agents at the limits of human abilities, FrontierSWE, 2026.04

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #SoftwareEngineering #One-Line Notes #LongHorizon #Author Thread-Post Issue Date: 2026-04-17 Comment

元ポスト:

Loading…

WAN2.1の推論パイプライン構築、llmのpost-trainingをしてlogic gameができるように学習させる、など、long horizonかつ非常に現実的なタスクで評価される

Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All, QwenTeam, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Sparse #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-16 Comment

HF: https://huggingface.co/Qwen/Qwen3.6-35B-A3B

元ポスト:

Loading…

ざっと見た感じ明言されていない気がするが、プロプライエタリとなったQwen3.6-Plusの廉価版（オープンなので廉価と言うのかはあれだが）だと思われる。

マルチエージェントシステムでGPUカーネルを38%高速化, Cursor, 2026.04

Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #Coding #SoftwareEngineering #GPUKernel #Author Thread-Post #AgentHarness Issue Date: 2026-04-15 Comment

元ポスト:

Loading…

自律的に長期間稼働し235件の問題を1回の実行で解くマルチエージェントハーネスに関するレポートで、3週間程度でBlackwell GPUカーネルをゼロから構築・最適化し38%高速化とのこと。

Evaluating agents for scientific discovery, Ai2, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Blog #ScientificDiscovery #Science #Surface-level Notes #Reading Reflections #Author Thread-Post Issue Date: 2026-04-14 Comment

元ポスト:

Loading…

scientific discoveryを実現するエージェントに関して、research paperで主張される素晴らしさと、実態のgapを埋めるためにAi2が実施してきたベンチマークに関する研究についての解説。

- [Paper Note] ScienceWorld: Is your Agent Smarter than a 5th Grader?, Ruoyao Wang+, EMNLP'22, 2022.03
- 小学校レベルの理科の実験をエージェントが実行できるかを評価するベンチマーク
- 教科書に載っているような古典的なdiscoveryを再現させる
- 200種類以上にものぼるオブジェクトが配置された、物理法則に従う（e.g., 氷が加熱すると溶けるなど）シミュレーション世界において、水の沸点を選択肢から正解を選ぶのではなく、自身で発見することを求められる。
- 2022年、Multiple Choice Questionのschool science examでハイスコアを記録したモデルはスコアは10%未満、2025年にはスコアは80%代に到達したが、まだ完全にこなふことができない。
- [Paper Note] DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents, Peter Jansen+, NeurIPS'24 Spotlight, 2024.06
- 独自の科学的な調査をスクラッチから設計実行させるベンチマーク
- 大学、あるいはPhDレベルのopen-endなdiscoveryに関する能力を問う
- 宇宙の惑星Xでの最初の科学者として調査を実施する設定で8トピックにわたる120のタスクをこなす必要がある
- 難易度は3段階に分かれていて、タスクは架空のcontextで実施されるため事前知識に頼ることができない中でタスクを解決し、正しいプロセスで実施されたかや、理解をしているかなどの能力も問われる。
- 現在のエージェントは、normal/challengingな難易度のタスク群について、80%の完了率を達成できない
- 双方のベンチマークともに、知識と実務力を分離した上で能力を測定するものとなっており、知識を答えるだけの見かけ上の能力ではなく、スクラッチから知識に基づいてエビデンスを積み上げ、実行し、タスクを遂行し科学的な発見をできるか、という実務力を問うている

という話。

この話は
- Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10

において議論されている「認知コア」と関連が深いと感じる。
認知コアとは、単なる記憶に頼るのではなく、事前学習において、いわゆる人間のような知性を（データ内に潜むアルゴリズム的なパターンを学習することで）獲得し、その結果としてIn context Learningのような能力を発達させることとされ、

既に獲得された知識がモデルの認知コアの発達を阻害し、未知の環境でも適応できるような汎化能力を獲得することを阻害している（＝モデルは既存の知識と紐づけて簡単に回答できてしまうため、アルゴリズムに基づいた思考と行動を備える必要がなく学習が進み、結果的に汎用的な能力が身につかない）恐れがある、という話である。

上記ベンチマーク（特にDiscoveryWorld）は既存の世界知識に捉われない、アルゴリズム的な思考と行動が求められると推察されるため、モデルの認知コア的な側面を部分的に測定していると言えると感じる。

MMX The official CLI for the MiniMax AI Platform: Built for AI agents. Generate text, images, video, speech, and music — from any agent or terminal., MiniMax-AI, 2026.04

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Repository #Omni #Initial Impression Notes #AgentHarness Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

MiniMax AIのAPIを用いて、omni-modalなタスクを実行できるCLIツールのようである。

The advisor strategy: Give agents an intelligence boost Pair Opus as an advisor with Sonnet or Haiku as an executor, and get near Opus-level intelligence in your agents at a fraction of the cost., Anthropic, 2026.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Blog #One-Line Notes #Reading Reflections Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

Strong Modelをツールとして登録（Advisor)しておき、意思決定が困難になった場合はstrong modelにレビュー依頼をしてcontextを受け取り実行可能な枠組み。

Sonnetで12パーセント程度省コストで、SWE Bench Multilingual のスコアを2.7%向上、とのこと。

SWE Benchの結果は、Claute Opus 4.6をAdvisorとして利用した旨が脚注に書かれている。

下記システムカードによると、Opus 4.6 の SWE Bench Multilingualのスコアは77.83程度（細かい設定は追えていない）、元ポストのSonnet+Advisorのスコアは74.8%なので、near Opusな性能が出るとポストに記載されているが、そのくらいのgapがあるという点には注意が必要。

https://www-cdn.anthropic.com/6a5fa276ac68b9aeb0c8b6af5fa36326e0e166dd.pdf

Taking the Pulse of Agentic AI from the Developer Community at the End of Q1 2026, InclusionAI, 2026.04

Paper/Blog Link My Issue
#Article #Survey #Tools #NLP #LanguageModel #Library #GenerativeAI #Repository #read-later Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

The OpenHands Vulnerability Fixer: Automated Security Remediation with AI Agents, Graham Neubig, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SoftwareEngineering #read-later #Security Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

ハーネスエンジニアリングのすすめ: 27BモデルでSWE-bench VerifiedのSLM SOTAを達成（TTS@8=74.8%）, Fujitsu Tech Blog, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Test-Time Scaling #SoftwareEngineering #One-Line Notes Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

Best-of-8 SamplingでSWE Benchのスコアを改善する話

Project Glasswing Securing critical software for the AI era, Anthropic, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Safety #Selected Papers/Blogs #One-Line Notes #Reference Collection #Safeguard #Reading Reflections Issue Date: 2026-04-08 Comment

元ポスト:

Loading…

Claude Mythos Previewが、ソフトウェアの脆弱性を見つける能力において、トップクラスの人間を除けば、あらゆる人間以上の能力を獲得してしまっており、これがサイバーセキュリティの概念を根本的に変化させてしまう危険がある。

実際、同モデルは数千にも及ぶ深刻な脆弱性を発見しており、それはOSやブラウザにも及び、これが経済や国家安全保障などに影響を及ぼすため、緊急のproject Glasswingを立ち上げており、まずは今回挙げたパートナーにClaude Mythos Previewにアクセス可能な無料のクレジットを与え、セキュリティに関する脆弱性を改善することで、セーフガードを確立し、その結果得られた知見をAnthropicがまとめて公表する、そしてその後パートナーはさらに拡大していく、という感じらしい。

しかし最近中国のOpenWeightモデルは、2ヶ月程度で米国のFrontier Modelに追いつく。では2ヶ月あとに中国系のOpenWeightモデルがClaude Mythos Previewの性能に追いついてOpenWeightとして公開された場合、世界はどうなってしまうのだろうか？

また、現在は以下の企業と連携してセーフガードを構築するようだが、これらグローバル企業以外の日本の企業はどうなるのだろうか？今後40以上の組織とも連携するようにする予定とのことだが、日本の社会を支えている企業群と連携するのはいつなのか？

所見:

Loading…

所見:

Loading…

しかしこれ、Claude Mythos Previewによって初めてこのようなことが起きたかのように書かれているけど、既知の脆弱性を見つけて悪用するというのは、既に公開されているOpenWeightモデルや、プロプライエタリモデルでも十分可能なのでは？
なぜいまさらこのようなことを言い始めたのだろうか。

所見:

Loading…

GPT-5.4でも15年前のLinux Kernelの深刻なバグを見つけたよ、という話:

Loading…

System Card: Claude Mythos Preview, Anthropic, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2026-04-08 Comment

Mythos Previewは一般公開する予定はなく、まずは安全性を高めることに注力するとのこと。

元ポスト:

Loading…

- Project Glasswing Securing critical software for the AI era, Anthropic, 2026.04

も参照のこと。要はソフトウェアの脆弱性を見つけて悪用する能力が高すぎて、このまま公開するとサイバーセキュリティが終わるので、まずは未然にセーフガードを構築するために公開は控えるということである。

所見:

Loading…

所見:

Loading…

GLM-5.1: Towards Long-Horizon Tasks, Z.ai, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #Reference Collection Issue Date: 2026-04-07 Comment

元ポスト:

Loading…

SWE Bench ProでSoTA...?!

HF: https://huggingface.co/zai-org/GLM-5.1

Artificial Analysis:

Loading…

アーキテクチャ解説:

Loading…

DeepSeekV3.2 likeなアーキテクチャで、MLA, DeepSeek Sparse Attentionを採用。Layer数がDeepSeekV3.2より多いとのこと。

Components of A Coding Agent: How coding agents use tools, memory, and repo context to make LLMs work better in practice, Sebastian Raschka, 2026.04

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #Initial Impression Notes #AgentHarness Issue Date: 2026-04-05 Comment

LLM, Reasoning Model, Agent, Agent Harness, coding harnessなどの定義とその役割やスコープ、そしてそれらを構成するためのminimalなコンポーネントについて説明されており、基礎的な理解に役立ちそう。

元ポスト:

Loading…

AutoAgent: first open source library for self-optimizing agents, Kevin Gu, 2026.04

Paper/Blog Link My Issue
#Article #NLP #Repository #Selected Papers/Blogs #One-Line Notes #AgentHarness Issue Date: 2026-04-04 Comment

github: https://github.com/kevinrgu/autoagent

Automatic Prompt EngineeringやAutoAgentと同様に、何らかの実施したいタスクのtest suiteがあり、performance metricを取得する前提で、Agnet Harnessを自動的にチューニングするという話のようである。

test dataが十分にある場合は非常に強力だと思われるが、test dataが少量、あるいはない場合では適用は難しい可能性がある。そのような場合はRubric-as-a-Reward+Strong LLMのような方法がtest suiteの代替になるかもしれないが、どこまでうまくいくだろうか。

Gemma 4: Byte for byte, the most capable open models, Google, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #2D (Image) #4D (Video) #One-Line Notes #Reference Collection #audio #text #Initial Impression Notes Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

2B, 4B, 26BのMoEモデルと31BのDenseモデルの4種類のモデルファミリーで、マルチモーダル（vision)対応。2B, 4Bはaudioも入力として扱える。

edgeデバイス向けのモデルは128k, 他は256kのコンテキストウィンドウ。140+の多言語サポート。

Apache 2.0ライセンス

arenaで同サイズのモデル群でSoTAといった話がブログ中に記述されている。

モデルカードには一般的なベンチマーク群とのスコアも記載されている。
https://ai.google.dev/gemma/docs/core/model_card_4?hl=ja

（そもそも既存のベンチマークにもコンタミネーションがあると思われるが、）arenaに関しては特定の企業に対してデータを提供し、複数のモデルの亜種をテストできるという慣行があり、リーダーボードにバイアスがあるであろう点には注意:
- [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25

artificial analysisによる評価:

Loading…

Qwenがproprietaryになったことから、ライセンス的に使いやすく、日本語に強そうなモデルとしては筆頭ではなかろうか。日本語性能が気になる。

アーキテクチャ解説:

Loading…

ポイント解説:

Loading…

所見:

Loading…

attentionのscaleをsqrt(d)でスケールさせる代わりに、QK-norm, V normを適用するなど。

NvidiaによるNVFP4へのpost-trainingによる量子化:
https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4

量子化後の性能も比較されており、知識、数学、コーディング、terminac useなど6種類のベンチマークでオリジナルのモデルと遜色ない性能が出ている旨記載されている。

解説:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4

Holo3: Breaking the Computer Use Frontier, H Company, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #ComputerUse #read-later #VisionLanguageModel #One-Line Notes #GUI #Environment Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Hcompany/Holo3-35B-A3B

Qwen3.5をファインチューニングすることで実現。以前のシリーズもQwenベースだったが、新たなQwenのリリースに伴いより強力なベースモデルを得て、かつシナリオをベースにして自動でwebsiteを構築しverifiableが可能な独自のEnvironmentを保持しており、多様な合成データの活用とRLを実現することで、性能が向上していると思われる。

Trinity-Large-Thinking: Scaling an Open Source Frontier Agent, Arcee, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/arcee-ai/trinity-large-thinking

Qwen3.6-Plus: Towards Real World Agents, Qwen Team, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

Opus 4.6相当のベンチマークスコアがありそうだが、プロプライエタリモデル化

How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #read-later #reading #LongHorizon Issue Date: 2026-03-29

ソフトウェア開発エージェント初歩から上級, Graham Neubig, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #SoftwareEngineering #read-later Issue Date: 2026-03-26 Comment

全体をざっくり概観してイメージをつかむのに良さそう。詳細を知りたい場合はリンク先を見ると良さげ。

(スライド最後の強化学習における「3」のスケーリングってなんだろう...?)

元ポスト:

Loading…

Vibe physics: The AI grad student, Anthropic, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #ScientificDiscovery #Physics #AI-Human Co-Improvement #Human-in-the-Loop Issue Date: 2026-03-25 Comment

元ポスト:

Loading…

Xiaomi MiMo-V2-Pro, Xiaomi, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary Issue Date: 2026-03-21 Comment

元ポスト:

Loading…

hugging-face-paper-pages, NielsRogge, 2026.03

Paper/Blog Link My Issue
#Article #NLP #One-Line Notes #AgentSkills Issue Date: 2026-03-20 Comment

HuggingFace Paper Pagesと連携するためのAgent Skills

MiroThinker-1.7, MiroMindAI, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #DeepResearch #LongHorizon #Initial Impression Notes Issue Date: 2026-03-20 Comment

元ポスト:

Loading…

ベンチマークに応じて、GPT-5, GPT-5.2, GPT-5.4など比較するGPTが恣意的に変わっているように見えるが、ベンチマーク上ではGPT-5と同等以上のAgenticなLLMっぽい？BrowseCompの性能がかなり良さそうに見える。

より長いホライズンに向けた Composer の学習, Cursor, 2026.03

Paper/Blog Link My Issue
#Article #DocumentSummarization #read-later Issue Date: 2026-03-20 Comment

元ポスト:

Loading…

Composer 2 のご紹介, Cursor, 2026.03

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Evaluation #Coding #SoftwareEngineering #mid-training #PostTraining #read-later #Selected Papers/Blogs #ContextEngineering #Live #Reference Collection #Initial Impression Notes Issue Date: 2026-03-20 Comment

元ポスト:

Loading…

所見:

Loading…

Kimi-K2.5がベースらしいとのこと:

Loading…

ベンチマークスコアに対する所見:

Loading…

テクニカルレポートが出た:
https://cursor.com/resources/Composer2.pdf

元ポスト:

Loading…

Kimi-K2.5をベースに、どのようにinstruction tuning後のモデルに対して継続事前学習、RLをし、GPT-5.4(high)級の性能を達成できたのか、ヒントがわかるかもしれない。

- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

所見:

Loading…

所見:

Loading…

RLによってpass@k（best-of-16）とpass@1の両方が改善する。既存研究では少なくともRLVRを用いた場合はPass@1は改善するが多様性が損なわれてPass@kの性能は改善しない ([Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08 , VibeVoice-1.5B, microsoft, 2025.08 )、という話があったが、Composer 2のレシピではそうではないようだ。どんなレシピだろう～と思ってさらっと関連しそうなところを見てみたが、詳細は書いてなさそうだ。
- [Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08
- VibeVoice-1.5B, microsoft, 2025.08

QA:

Loading…

CursorBenchの解説:

Loading…

要はrealisticなデータとシチュエーションでの評価に非常に重きを置いていて
- 実際のコーディングsessionのデータが用いられ、contamination-free
- 機能的な正しさのみならず、コードの品質、効率、挙動などの実用的な価値を意識し
- long horizonなタスクが多く取り入れられ
- Promptは曖昧性をうまく扱えるかを評価するために意図的にシンプルで短く
- CursorBenchのデータは継続的に更新される
- realisticなsessionデータだけでなく、その他の重要な挙動の評価（e.g., 指示追従, ルール/skilltのハンドリング, コメントの品質, editするか否かの判断の適切性など）のためのデータでも拡張されている

という感じらしい

ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03

self-summarizationによるcontextのcompressionを実施している
- [Paper Note] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning, Yuchen Yan+, arXiv'26, 2026.02
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
- より長いホライズンに向けた Composer の学習, Cursor, 2026.03

所見:

Loading…

OpenClaw — Personal AI Assistant, openclaw, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #Repository #ComputerUse #Selected Papers/Blogs Issue Date: 2026-03-19 Comment

2026.04.07:

Loading…

5 Agent Skill design patterns every ADK developer should know, Google Cloud Tech, X, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Post #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes #AgentSkills Issue Date: 2026-03-18 Comment

Agent Skillsの定義の仕方による性能差については下記を参照のこと:
- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02

以下の5つのPatternが紹介されている:
- Tool Wrapper
- Generator
- Reviewer
- Inversion
- Pipeline

最終的にどのようなPatternを採用すべきかの判断となるフローチャートも提供されている。

全体的なポイントとしては、
- 各種SKILLS.mdにはhowを記述し（e.g., 具体的な実行のstepを記述するなど）、　
- 実行内容やルールなどの"what"に関する情報は別のドキュメントに移譲し、SKILLS.mdにはそのポインタを記述する、
- ユーザの承認なしで先へ進まないようにするには、ユーザに何らかの質問・承認を求めるよう指示を明示的に記述する

といった作法である。一つの巨大で複雑なSKILLS.mdやsystem promptを作るのではなく、内容をbreak downして記述やドキュメントの構造を設計するのが肝要と感じる。

他の参考文献として
- # Writing a good CLAUDE.md, Kyle, 2025.11

はAGENTS.mdの話だが、同じような議論がされており、なぜless is moreが重要なのかといった説明も研究動向を踏まえながら説明されている。

OpenMAIC, THU-MAIC, 2026.03

Paper/Blog Link My Issue
#Article #Multi #Tools #NLP #LanguageModel #Education #AdaptiveLearning #Repository #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-17 Comment

マルチエージェントによってスケーラブル、adaptiveにオンライン教育を実現するフレームワークのようである

元ポスト:

Loading…

computer-use-large, markov-ai, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #4D (Video) #One-Line Notes Issue Date: 2026-03-15 Comment

元ポスト:

Loading…

12,300時間程度の、プロフェッショナルなソフトウェア（AutoCAD, Blender, Excel, Photoshop, Salesforce VSCode)利用しているスクリーンのレコーディングデータとのこと。

CC-BY-4.0！？

A2UI, google, 2026.03

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #SoftwareEngineering #One-Line Notes #UI Issue Date: 2026-03-15 Comment

元ポスト:

Loading…

AgentがUIを表現するための標準的なライブラリ群で、agentから応答されるjsonをクライアント側のライブラリでrenderingすることでUIがレンダリング可能というものらしい。

UIはコンポーネントのリストで表現されるためユーザのリクエストに応じてincrementalにUIを変化させるといったことが可能とのこと。

Bringing Code Review to Claude Code, Anthropic, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #SoftwareEngineering #read-later Issue Date: 2026-03-12 Comment

元ポスト:

Loading…

コードレビューに特化した機能が追加された模様
Anthropic社内で運用済みで、エンジニアがコードレビューに誤りがあると判断したものは<1%とのこと。

autoresearch, karpathy, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository #ScientificDiscovery #Selected Papers/Blogs #One-Line Notes #autoresearch Issue Date: 2026-03-10 Comment

元ポスト:

Loading…

リポジトリのDiscussionsに、定期的にsession reportがアップロードされるようだ:
https://github.com/karpathy/autoresearch/discussions/43

nanochatは現在、126回の実験を経て、Validation BPBが0.997900 -> 0.969686 まで改善しているとのこと。

pjの目的やテーマは、**研究者がpythonファイルのコードをいじるのではなく、program.mdと呼ばれるAgentにコンテキストとして与えるmarkdownファイルのみの編集を通じて、研究組織（≠単一のPh.D student）をエミュレートできるか？** という点にありそうである。
https://github.com/karpathy/autoresearch/blob/master/program.md

その題材の一つとして、nanochatを簡略化したGPTを用いて、GPTの事前学習の性能を改善させるようなtraining.pyの編集をAI Agentsに実施させ、5分間学習させて成果を報告させるという形式をとっている（と解釈した。）

続報:

Loading…

Effective harnesses for long-running agents, Anthropic, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Initial Impression Notes Issue Date: 2026-03-10 Comment

`Agent Harness` という用語の起源が気になっており、アンテナを張っているが、本ブログでAgent Harnessという用語が登場している。

- [Paper Note] Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned, Nghi D. Q. Bui, arXiv'26, 2026.03

において本ブログが引用され `harness` という用語が用いられている。このブログが起源なのだろうか（勉強不足）。

The importance of Agent Harness in 2026, PHILSCHMID, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Selected Papers/Blogs #LongHorizon #Reading Reflections #AgentHarness Issue Date: 2026-03-08 Comment

本ブログで定義されているAgent Harnessは、これまでのAI Agent研究で利用されてきた Scaffold（＝実行基盤）とEvaluation Harness（＝評価基盤）のように、実行と評価を区別してきたLiteratureとは異なる、より包括的な概念に見える（言葉としてHarnessが用いられているので、最初に読んだときは困惑した）。

先行研究:
- [Paper Note] Holistic Evaluation of Language Models, Percy Liang+, arXiv'22, 2022.11
- [Paper Note] Lessons from the Trenches on Reproducible Evaluation of Language Models, Stella Biderman+, arXiv'24, 2024.05
- [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10

これまでのLiteratureでは、エージェントがタスクを遂行するためのエコシステム全般（言い換えるとLLMをエージェントの脳とした時の、エージェントの実装そのもの）のことをScaffold（ツール利用やコンテキスト管理、サブエージェントの実行、エラー時の挙動、プロンプト構成など）と呼び、

評価をする際の評価基盤となるインフラ（エージェントを動作させる仮想マシン等の実行環境やそのオーケストレーション、Scaffoldの構成、評価ベンチマーク、コストやtrajectoryのロギング等の評価全体に関わるエコシステム）のことをEvaluation Harnessと呼んできたと認識している。

（私の認識違いの可能性もあるが）このLiteratureを理解しておかないと、今後Harnessという言葉がバズワードと化して、思わぬ誤解を生むかもしれないので注意した方が良いかなと感じた。

つまり世の中には
- Scaffold
- Evaluation Harness
- Agent Harness

の3種類の定義があり、特に後者二つは省略してHarnessと呼ばれそう、という気がするが、後者二つは呼称が似ているが異なる概念を指しているので注意した方が良いかも（あくまで個人の感想）。

たとえば下記OpenAIのブログでも「Harness Engineering」という言葉がタイトルで用いられており、Harnessの定義がなされずに記述されているように見える。実際ブログ後半にはEvaluation HarnessというこれまでのLiteratureと同じ意味合いでの用語も登場している。今後どのような用語が何を指すのようになるかは分からないが、ハーネスという言葉の定義が人によって異なる可能性があるという点は認識しておいた方が良さそうである。
- Harness engineering: leveraging Codex in an agent-first world, Ryan Lopopolo, 2026.02

`Agent Harness` という用語の起源が気になっており、アンテナを張っているが、下記AnthropicブログでAgent Harnessという用語が登場している。
- Effective harnesses for long-running agents, Anthropic, 2025.11

下記文献でも
- [Paper Note] Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned, Nghi D. Q. Bui, arXiv'26, 2026.03

Effective harnesses for long-running agents, Anthropic, 2025.11 が引用され `harness` という用語が用いられている。このブログが起源なのだろうか（勉強不足）。

- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02

でも Agent Harness という用語が使われている。

Codex Security: now in research preview, OpenAI, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Security Issue Date: 2026-03-07 Comment

元ポスト:

Loading…

Google Workspace CLI, Google, 2026.03

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Repository #ContextEngineering #One-Line Notes #AgentSkills Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

google workspaceにone-lineのコマンドでアクセス可能なCLIツールとのこと。40以上のAgentSkillsを内包。

Practical Guide to Evaluating and Testing Agent Skills, PHILSCHMID, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Coding #SoftwareEngineering #read-later #AgentSkills Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

Introducing GPT‑5.4, OpenAI, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Coding #Proprietary #Reference Collection #Reading Reflections Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

Artiflcial Analysisによる評価:

Loading…

所見:

Loading…

所見:

Loading…

評判が良い。管理人も利用しているが、指示で曖昧な点をきちんと質問してくれる点が便利。かつ応答として、選択可能なオプションを提示し、自由記述もできる。実装の内容はClaude 4.6 Opusと比べるとコードがシンプルな印象を受けるが、これも指示次第な気はする。

曖昧な点があったら質問を投げかけるという挙動はopenhandsのPosition Paperとも整合する流れである。

- [Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02

How to Create Effective Agent Skills, openhands, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #read-later #AgentSkills Issue Date: 2026-03-03 Comment

元ポスト:

Loading…

agent-vault, botiverse, 2026.02

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Repository #Privacy Issue Date: 2026-03-02

TAKT, nrslib, 2026.01

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Repository #Coding #SoftwareEngineering Issue Date: 2026-03-01 Comment

色々使ってみたいなぁ（小並感）

元ポスト:

Loading…

Coding agents progress over the past two months, Andrej Karpathy, X, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Post #SoftwareEngineering #Reading Reflections Issue Date: 2026-02-28 Comment

やっぱ英語で指示ださないとあかんか...（小並感）

CoderForge-Preview: SOTA open dataset for training efficient coding agents, together.ai, 2026.02

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Blog #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-02-28 Comment

元ポスト:

Loading…

The third era of AI software development, Michael Turuell, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Post #SoftwareEngineering #read-later Issue Date: 2026-02-28

prime-lab-trainer, abideenml, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Repository #ExperimentManagement #SoftwareEngineering #AgentSkills Issue Date: 2026-02-28 Comment

- Introducing Lab: The Full-Stack Platform for Training your Own Models, Prime Intellect, 2026.02

に対して任意のHF Datasetを用いて自動的にRLによるモデルの学習をsubmit可能なClaude Code skillとのこと。

元ポスト:

Loading…

New in Claude Code: Remote Control, Anthropic, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Post #SoftwareEngineering Issue Date: 2026-02-27 Comment

スマホからターミナルのClaude Codeに対してリモートで制御が可能になったらしい

# Writing a good CLAUDE.md, Kyle, 2025.11

Paper/Blog Link My Issue
#Article #NLP #Blog #Selected Papers/Blogs #KeyPoint Notes #Surface-level Notes #Reading Reflections #AGENTS.md Issue Date: 2026-02-27 Comment

元ポスト:

Loading…

本ブログは CLAUDE.md について記述されているものだが、ブログ冒頭で記述されており、AGENTS.mdに一般的に適用できる話だと考えられるため、以下本文中でCLAUDE.mdとして記述されている部分も、AGENTS.mdと読み替えて記述している。

要するに
- `AGENTS.md` はAI Agentの **全ての会話に対してコンテキストをユーザが明示的に挿入する唯一の手段** であり、
- `AGENTS.md` にはプロジェクトのあらゆるタスクで **普遍的に必要な情報を、過不足なく、簡潔に記述されるべき** であり
- プロジェクトが大規模な場合は、`AGENTS.md` は目次として利用し、必要な情報は個別のファイルに別々に記述し、`AGENTS.md` 内にはその **ポインターのみを記載** する
- `AGENTS.md` の **自動生成は非推奨** であり、理由としては1行でも誤った記述が含まれていた場合全てのエージェントの挙動に影響が出るためであり、全ての内容について慎重に検討をしたうえで記述されるべきである。

という話のようである。

-----

- 原則
- AI Agentはstatelessであり、あなたのコードベースについて何も知らない。このため利用者がコンテキストとしてコードベースの情報を伝える必要があり、そのために有用なツールがAGENTS.mdである
- AGENTS.mdはすべての会話にデフォルトでコンテキストとして含まれる **唯一の** ファイルである
- AGENTS.mdでどのような情報が網羅されるべきか？
- **WHAT**: 技術スタック、プロジェクト構造、コードベースの構成等のリポジトリの基本情報を記述し、Agentが適切に情報を検索できるようにする
- **WHY**: プロジェクトの役割と、リポジトリ内の要素の役割
- **HOW**: Agentがどのような作業をすべきに関する明確な指示を記述し、その指示を実施するために必要な情報を全て含める
- AGENT.md はしばしば無視される
- たとえばClaude CodeではCLAUDE.md (Claudeが利用するAGENTS.md) をコンテキストに含める際に以下のシステムリマインダーを自動的に挿入する:
- つまり、AGENTS.mdに普遍的に利用可能な情報が含まれていない場合は、現在実施しようとしているタスクと関係ないとエージェントが判断し、AGENTS.mdが無視されることがある点に注意が必要

```

IMPORTANT: this context may or may not be relevant to your tasks.
You should not respond to this context unless it is highly relevant to your task.

```
- 優れたAGENTS.mdを作成するベストプラクティス
- **less (instructions) is more**:
- AI Agentが順守できる指示の数には限界があり、指示の数が増えれば増えるほど、指示を遵守できない割合が高まっていく。
- これはモデル依存であり、パラメータ数が大きいモデルほど多くの指示を遵守できる（150--200など）。
- AGENTS.mdがすべての会話に付与されることを考えると、たとえば50個の指示をAGENTS.mdに含めた場合、150個の指示を遵守できるAgentを利用していたら、AGENTS.mdだけで1/3だけを消費することになる。
- また、指示が増えれば増えるほど、均一に指示追従の能力が低下する。
- つまり、ある指示が冒頭・末尾に書かれていようとも、位置に関係なく何らかの指示に追従しない可能性が高まる。
- これらの性質から、可能な限り少ない指示を記述することが必要で、特に冗長性を排除し、あらゆるタスクに普遍的に適用可能な指示のみを記述することが肝要であることが示唆される。
- length & applicability:
- AGENTS.mdは、300行未満などが推奨されているが、要は **適切な普遍的に適用可能な情報が** 簡潔で短く記述されていることが好ましい[^1]。
- Progressive Disclosure
- プロジェクトが大規模化した場合、必要な全ての情報を簡潔にAGENTS.mdに含めることがそもそも困難になる
- この場合はAGENTS.mdに目次を記述し、機能ごとの必要な情報は個別のファイルに記述し、それがどこに格納されているかのポインタを記述することによって解決する
- AGENTS.mdに全ての情報を書いてしまってはいけない。この場合上記の less is more や length の原則に反することになる。
- AGENT (CLAUDE) is not an expensive linter
- コーディング規約を書いている人が多いがやめた方が良いという話で、
- コーディング規約を無視しているか否かを判断させるにはもっと決定論的で安価なツールがあるのでそちらに任せましょうという話と、
- コーディング規約を明示していなくてもAgentはコードスニペットを解釈する過程で暗黙的にどのようなコーディング規約に従っているかは理解できるので、わざわざ明示的に挿入して不要で無関係なコンテキストで埋め尽くす必要はないよね、という話が書かれている。
- `/init` コマンドや、`AGENTS.md (CLAUDE.md)` の**自動生成は非推奨**
- AGENTS.md はAgentの全ての挙動に影響を与えるため、1行でも誤りがあると全ての作業に影響が出る非常にクリティカルなファイルであるため、自動生成等に頼らずに、慎重に検討をした上で記述されるべきである、という話
- 実際、下記研究にてLLMが自動生成したAGENTS.mdでは、タスク性能は劣化しトークン消費量が増えるだけ、という結果が示されている
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02

[^1]: 根拠として、ブログ中では、無関係な情報がコンテキストで埋め尽くされているよりも、関連性のある情報が埋め尽くされる場合が一般的に性能が向上すると書かれている。が、文献などは引用されていないように見える。たとえば、この記述に対して、「初期のRAGの研究でrelevantな情報に対してirrelevantな情報が周囲で埋め尽くされていた場合に実は性能が向上します、といった話があったじゃないか」といった鉞を飛ばすことができそうだが、これは古い研究でおそらく当時（数年前）のLLMではcontext中のrelevantな情報を見分ける能力が低かったことに起因する。つまり、このような現象は明らかにirrelevantな情報が混在することで、相対的にrelevantな情報が際立つことによってLLMのcontextの理解力が乏しい部分を補っていた、と管理人は推察しており、現代のLLMではcontextを解釈する性能は大幅に向上していると考えられるため、わざわざirrelevantな情報をcontextに含める必要はなく、この見解には私も同意する。そもそもこの私の見解があまりにも重箱の隅すぎて蛇足すぎるがなんかそういうことを思い出しちゃったので書いた :)

ここで記載されている内容はAGENTS.mdのみならず、そもそものプロンプトエンジニアリング全般で言える話でもある。

[Paper Note] PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents, Yang+, 2026.02

Paper/Blog Link My Issue
#Article #NLP #memory Issue Date: 2026-02-24 Comment

元ポスト:

Loading…

Why SWE-bench Verified no longer measures frontier coding capabilities, OpenAI, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Blog #Coding #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes #Contamination Issue Date: 2026-02-24 Comment

元ポスト:

Loading…

SWE-Bench Verifiedはpublicなリポジトリに基づいたベンチマークなのでcontaminationが生じやすく、実際にいくつかのモデルでcontaminationが確認されたと言う話と、testコードに本来は正しい実装でもfailedとなる許容するスコープが狭いテストが存在していた、という話で、これらの教訓を生かしたSWE-Bench Proを作成し、実際それはcontaminationがほとんど起きておらず、仮に起きていたとしても非常にマイナーなものだよ、というような話が書かれている。

Agents: Inner Loop vs Outer Loop , PHILSCHMID, 2026.02

Paper/Blog Link My Issue
#Article #Post #read-later Issue Date: 2026-02-19

Can We Close the Loop in 2026?, PHILSCHMID, 2026.02

Paper/Blog Link My Issue
#Article #Blog #read-later Issue Date: 2026-02-18 Comment

元ポスト:

Loading…

SWE-fficiency: Evaluating How to Fix Code, Not Just What to Fix, OpenHands, 2026.02

Paper/Blog Link My Issue
#Article #Metrics #NLP #LanguageModel #Evaluation #Coding #SoftwareEngineering #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-02-17 Comment

元ポスト:

Loading…

既存のAI Agentsのベンチマークは、バグを修正することに特化しており（what to fix)、機能的には正しいが高速化が必要といった効率性や最適化の観点(how to fix)が評価から抜けているので、そのためにSpeedup Ratioと呼ばれる人間の専門家に対してどの程度の高速化を達成できたかを測るmetricとそのためのベンチマークSWE-ffiencyを構築。SWE-fficiencyはnumpy, pandas, sklearnなどの9つの主要なリポジトリにおける498のタスクで構成される。評価の結果、Claude Opus 4.5をOpenhandsのハーネスで駆動させだ場合でも人間のエキスパートに対して0.225倍程度の高速化しか実現できないことがわかった、といった話な模様。

IA Agents Minimal agent framework for the Gemini Interactions API, philschmid, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository #read-later #MinimalCode #Initial Impression Notes Issue Date: 2026-02-17 Comment

元ポスト:

Loading…

Gemini Interactions APIを用いたエージェントのminimal code。これは非常に勉強になりそう。

Building Olmo in the Era of Agents, Nathan Lambert, LTI Colloquim, 2026.02

Paper/Blog Link My Issue
#Article #Tutorial #Survey #NLP #LanguageModel #Reasoning #Slide #OpenSource #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-02-16 Comment

元ポスト:

Loading…

うーんこれは時間をとってしっかり読んで色々まとめたい・・・

[Paper Notes] Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity, Bytedance Seed, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Reasoning #Proprietary #VisionLanguageModel Issue Date: 2026-02-16 Comment

元ポスト:

Loading…

所見:

Loading…

GPT‑5.2 derives a new result in theoretical physics, OpenAI, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #ScientificDiscovery #Physics #Human-in-the-Loop Issue Date: 2026-02-14 Comment

元ポスト:

Loading…

Introducing GPT‑5.3‑Codex‑Spark: An ultra-fast model for real-time coding in Codex, OpenAI, 2026.02

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Blog #Coding #SoftwareEngineering Issue Date: 2026-02-13 Comment

元ポスト:

Loading…

所見:

Loading…

Gemini 3 Deep Think: Advancing science, research and engineering, Google, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Reasoning #Mathematics #Proprietary #SoftwareEngineering #Science Issue Date: 2026-02-13 Comment

まずはUltra Subscriberに公開し、その後徐々にAPIアクセスを解禁していくとのこと。

LiveCodeBench:

Loading…

MiniMax M2.5: SOTA in Coding and Agent, designed for Agent Universe, MiniMax, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Coding #OpenWeight #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2026-02-13 Comment

元ポスト:

Loading…

OsenHands IndexでClaude Sonnet 4.5超えの初めてのOpenWeightモデル:

Loading…

コストパフォーマンスにおいては、低コストなモデル群の中では抜きん出た性能

まだHF上にWeightは公開されていないようだが後ほど公開されると思われる。

所見:

Loading…

weightが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2.5

元ポスト:

Loading…

UnslothがGGUF版を公開:

Loading…

A2A: The Agent2Agent Protocol, DeepLearning.AI, 2026.02

Paper/Blog Link My Issue
#Article #Multi #Tutorial #NLP #LanguageModel #Video #SoftwareEngineering #A2A Issue Date: 2026-02-13 Comment

元ポスト:

Loading…

元ポスト:

Loading…

Ring-1T-2.5-FP8, inclusionAI, 2026.02

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Attention #Reasoning #LongSequence #OpenWeight #LongHorizon #LinearAttention Issue Date: 2026-02-12 Comment

元ポスト:

Loading…

Harness engineering: leveraging Codex in an agent-first world, Ryan Lopopolo, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Blog #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2026-02-12 Comment

OpenAI社内でのコードを1行も人間が書かないで製品をリリースする取り組みに関する詳細なレポートのようである。初期の設計などで想像以上に時間がかかってしまった点（これはCodexの能力の問題ではない）や、実装を続ける中で品質に責任を持つ人間の能力（というより時間）がボトルネックになっていったため、極力Codexが自律的に品質管理ができるような実行・検証環境を用意することで負担を低減した話や、Codexに膨大なマニュアルを読ませて処理をさせるのではなく、どこにどのような情報が格納されているのかといったマップ（目次）を与えることがコンテキストエンジニアリング上重要だったことなどを通じてエージェントにとってリポジトリ全体の可読性を高めることが重要だったといった話や、プロジェクトの期間が長引くにつれて、リポジトリ内に共有されていないcontextが増大していき、それらをリポジトリに統合する作業が生じるなどの課題も生じたといったような話など色々と書かれている。

[Paper Note] Accelerating Mathematical and Scientific Discovery with Gemini Deep Think, Google DeepMin, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #KeyPoint Notes #Physics #Human-in-the-Loop Issue Date: 2026-02-12 Comment

元ポスト:

Loading…

- 数学について
- verifierを通じて解の修正と再生成を繰り返すが、問題が解けないことを認めることで（無駄な修正・再生成を減らすことで）効率を大幅に改善
- 博士課程レベル・オリンピックレベルを超えてもtest-time scalingが継続する
- 検索を融合することで既存文献を取り入れ正確性向上
- 完全自動で出版できるレベルの研究を実施可能なところまできている（level0--5のlevel2）

- コンピュータサイエンス・物理学について
- ネットワーク側で広範な解空間を探索してlong-trailな解も捉え推論に組み込むことが可能で、自動的なverificationと人間によるverificationを通じてoutputを生成する
- たとえば10年間未解決だったオンライン列モジュラ最適化と呼ばれる問題や、モデル学習時のノイズ除去による理論的な証明などを実施できている

論文:
- [Paper Note] Towards Autonomous Mathematics Research, Tony Feng+, arXiv'26, 2026.02

[Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #UserBased #Coding #read-later #Selected Papers/Blogs #interactive #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-12 Comment

# Authors
Zora Zhiruo Wang, John Yang, Kilian Lieret, Alexa Tartaglini, Valerie Chen, Yuxiang Wei,
Zijian Wang, Lingming Zhang, Karthik Narasimhan, Ludwig Schmidt, Graham Neubig, Daniel Fried, Diyi Yang

元ポスト:

Loading…

現在のコーディングエージェントは自動的にタスクを完了させ、難易度の高いベンチマークを解けることが実用的な価値とみなされているが、今後より実用的な価値を高めプロダクト化するためには単独でタスクをこなすのではなく、人間開発者やユーザとの相互作用をするような枠組みが次のブレイクスルーとなりうるというposition。非常に共感できる。

GLM-5: From Vibe Coding to Agentic Engineering, Z.ai, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #LongHorizon #SparseAttention Issue Date: 2026-02-12 Comment

GLMシリーズの最新モデルGLM-5がリリースされた

元ポスト:

Loading…

- DeepSeek Sparse Attentionを採用:
- DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09
- [Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
- 事前学習データを23Tから28.5Tトークンへ
- パラメータ数は4.5の355B-A32から744B-A40Bへ
- RLのインフラとして4.5から引き続きSlimeを採用
- slime, THUDM & Zhihu, 2025.09
- long-horizonなタスクに秀でており、reasoning, coding, agenticタスクにおける各種ベンチマークでOpus 4.5, GPT-5.2, Gemini 3 Proと同等程度の性能

FP8版も公開されている模様（Hopper以後のアーキテクチャでないとサポートされていない点に注意

所見:

Loading…

元ポスト:

Loading…

unslothがGGUF版をすでにリリースしている模様。早い:
https://unsloth.ai/docs/models/glm-5

アーキテクチャ解説:

Loading…

アーキテクチャ解説:

Loading…

所見:

Loading…

ENGRAM, EvolvingLMMs-Lab, 2026.02

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Privacy #MCP #memory Issue Date: 2026-02-12 Comment

元ポスト:

Loading…

MCPに対応しているAI Agentであれば互換性がある暗号化されたストレージの実装なようで、サードパーティのストレージにデータを預けなくてもローカルのストレージでLLMに対して知識を提供可能な模様。

最近DeepSeekが提案したEngramとは異なるので注意:
- [Paper Note] Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models, Xin Cheng+, arXiv'26, 2026.01

Introducing Lab: The Full-Stack Platform for Training your Own Models, Prime Intellect, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #LanguageModel #Infrastructure #ReinforcementLearning #Blog #ScientificDiscovery #PostTraining #Selected Papers/Blogs #One-Line Notes #Reference Collection #Environment Issue Date: 2026-02-11 Comment

元ポスト:

Loading…

事後学習、特にAgenticな研究の民主化のためのプラットフォームの提供

所見:

Loading…

利用例 (Environment Hub):

Loading…

Sabotage Risk Report: Claude Opus 4.6, Anthropic, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #Safety #read-later Issue Date: 2026-02-11 Comment

元ポスト:

Loading…

[Paper Note] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis, Li+, 2026.02

Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #Search #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #OpenSource #Selected Papers/Blogs #Reproducibility #DeepResearch #One-Line Notes #LongHorizon #Initial Impression Notes #Environment Issue Date: 2026-02-10 Comment

元ポスト:

Loading…

APIに依存せずオフラインコーパスと検索を利用し、高品質なDeepResearchのlong horizonなtrajectoryを合成可能な環境を構築。合成したtrajectoryでNemotron-3-nano-30B-A3B-BaseをSFTすることで、Kimi-K2, GLM-4.6などの10倍以上大きいサイズのモデルよりもBrowseCompで高い性能を獲得。同サイズのTongyiDeepResearchもoutperform。

Deterministicなプロセスで、オフラインコーパスからデータを合成し外部APIに依存しないため完全に再現性があり、かつAPIのコストやrate limitにも引っかからないという利点がある。検索エンジン、コード、データ、合成データ、モデル、全てを公開。

完全に再現性のある研究は素晴らしい。

Composer 1.5 のご紹介, Cursor Team, 2026.02

Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #GenerativeAI #Blog #Coding #SoftwareEngineering #PostTraining #One-Line Notes #Scalability Issue Date: 2026-02-10 Comment

事前学習モデルに対して、RLをさらにスケールさせることで性能が継続的に向上し、自己要約能力も備えさせることでcontext windowの問題に対処しているとのこと。

（関連）Composer: 強化学習で構築する高速フロンティアモデル:
https://cursor.com/ja/blog/composer

Opus 4.6, Codex 5.3, and the post-benchmark era, Interconnects, 2026.02

Paper/Blog Link My Issue
#Article #Analysis #LanguageModel #Blog #Coding #SoftwareEngineering #One-Line Notes #Author Thread-Post Issue Date: 2026-02-10 Comment

有識者によるClaude 4.6 Opus と Codex 5.3 を利用した際の所見（定性評価）が記述されている。

元ポスト:

Loading…

著者によるTLDR:

Loading…

Context-Bench: A benchmark for agentic context engineering, Letta Research, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Blog #ContextEngineering Issue Date: 2026-02-09 Comment

元ポスト:

Loading…

Building a C compiler with a team of parallel Claudes, Anthropic, 2026.02

Paper/Blog Link My Issue
#Article #Multi #LanguageModel #Blog #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-02-06 Comment

元ポスト:

Loading…

Introducing GPT-5.3-Codex: Expanding Codex across the full spectrum of professional work on a computer, OpenAI, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Proprietary #SoftwareEngineering #Selected Papers/Blogs #Reference Collection Issue Date: 2026-02-06 Comment

元ポスト:

Loading…

terminal bench 2.0でOpus 4.6超え:

Loading…

所見:

Loading…

Advancing finance with Claude Opus 4.6, Anthropic, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Financial #Proprietary #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2026-02-06 Comment

元ポスト:

Loading…

全体的に能力が向上しているが、ターミナルでのコーディング、BrowseComp(Agentic search), HLE, Financial Analysis, GDPValにおけるOffice Task, Novel Problem Solvingの能力が大きく向上しているように見える。

Context Windowが1Mとのことで素晴らしい

Loading…

OpenHands Indexでトップとのことだが、Codex 5.3との比較はまだの模様:

Loading…

50% time horizonが脅威の14.5時間:

Loading…

Time Horizon 1.1, METR, 2026.01

Paper/Blog Link My Issue
#Article #Metrics #NLP #LanguageModel #Evaluation #Scaling Laws #Selected Papers/Blogs Issue Date: 2026-02-05 Comment

元ポスト:

Loading…

続報:

Loading…

New Holo2 model takes the lead in UI Localization, H Company, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Blog #OpenWeight #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #Grounding #GUI Issue Date: 2026-02-05 Comment

HF: https://huggingface.co/Hcompany/Holo2-235B-A22B

元ポスト:

Loading…

Moltbook is the most interesting place on the internet right now, Simon Willisons's blog, 2026.01

Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #GenerativeAI #Blog #Conversation #Selected Papers/Blogs #Reference Collection Issue Date: 2026-02-01 Comment

元ポスト:

Loading…

興味深い:

Loading…

話したことのないhumanとの会話をあたかもあったことのように話し始める:

Loading…

所見:

Loading…

Andrej Karpathy氏もエージェントを参加させたようである:

Loading…

所見:

Loading…

How AI assistance impacts the formation of coding skills, Anthropic, 2026.01

Paper/Blog Link My Issue
#Article #Analysis #Education #Coding #SoftwareEngineering #read-later #KeyPoint Notes Issue Date: 2026-01-30 Comment

コーディングエージェントを使うことによる新しいスキルの習熟に対する影響の調査。エージェントを使ったグループは平均的に早く仕事を終えたが、その後のクイズによる習熟度のテストでは17パーセント低いスコアとなりエージェントを使わなかったグループと比較して習熟度に差が生まれた。しかしエージェントを使って早く終えたにも関わらず習熟度も相対的に低くならなかった人々がいて、そのような人たちはただエージェントに頼るのではなく、コードのコンセプトや理解をするための質問を投げかけている、といった使い方に関する違いが見受けられた、といった話に見える。

Introducing the OpenHands Index, OpenHands, 2026.01

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Evaluation #Blog #SoftwareEngineering #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-01-30 Comment

元ポスト:

Loading…

SWE Bench(pythonプログラムリポジトリに対するissueを解決するタスク）がSWE関連の代表的なベンチマークだがこれらはソフトウェアエンジニアリングのサブタスクの一つしか反映しておらず、より多くのタスクの解決能力でSWE Agentの能力を評価し、かつコストの軸でも評価をしてどのモデルがパレート最適なものなのかを見つけられるようなindexを作って評価しました、という話に見える。

タスクとしては以下の5つをピックしているとのこと:

> 1. Issue Resolution
> 2. Frontend Development
> 3. Greenfield Development
> 4. Software Testing
> 5. Information Gathering

これらのタスクを総合的に評価するとClaude 4.5 Opusが最も性能が高くコストも高い。次点でGPT-5.2-Codexという結果。またコストが最も安く平均的な性能が高いモデルとしてはDeepSeekV3.2-Reasonerとなった。また、特定のタスク、たとえばGreenfield developmentではGPT-5.2-Codexの性能が抜きん出ているなど、個別のタスクで見るとモデル間の優劣がはっきりと見えるような結果になっている。

以下のモデルが追加:

Claude 4.6 Opus
GPT 5.2 Codex
Kimi K2.5
GLM-4.7
MiniMax M2.5

Loading…

Introducing Agentic Vision in Gemini 3 Flash, Google Deepmind, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Proprietary #VisionLanguageModel #One-Line Notes Issue Date: 2026-01-29 Comment

元ポスト:

Loading…

visual reasoningとコード実行の融合

Introducing Prism, OpenAI, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #GenerativeAI #MultiModal #AcademicWriting #DeepResearch #One-Line Notes Issue Date: 2026-01-29 Comment

デモを見るとdraftをベースに関連研究をdeepresearchしてワンクリックでbibtexにexport, ホワイトボードに描いた図をドラッグ&ドロップして論文に反映などしている。Overleafの競合。

元ポスト:

Loading…

所見:

Loading…

Open Coding Agents: Fast, accessible coding agents that adapt to any repo, Ai2, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #SoftwareEngineering #read-later Issue Date: 2026-01-29 Comment

開発者の方のブログ:
https://timdettmers.com/2026/01/27/building-open-coding-agent-sera/

HF: https://huggingface.co/collections/allenai/open-coding-agents

14Bモデルリリース:

Loading…

A few random notes from claude coding quite a bit last few weeks., Andrej Karpathy, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Post #SoftwareEngineering Issue Date: 2026-01-27

Minimax Agent, Minimax, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #GenerativeAI #ComputerUse Issue Date: 2026-01-27 Comment

code: https://github.com/MiniMax-AI/Mini-Agent

元ポスト:

Loading…

Designing AI-resistant technical evaluations, Anthropic, 2026.01

Paper/Blog Link My Issue
#Article #LanguageModel #Education #Blog #read-later #Selected Papers/Blogs #Initial Impression Notes #Testing Issue Date: 2026-01-22 Comment

元ポスト:

Loading…

Anthropicの採用における持ち帰り課題の変遷に関する記事。昔の持ち帰り課題では、応募者の大半よりもClaudeが上回るようになり採用におけるシグナルが拾いづらくなったのでリデザインが必要になった、そしてそれをどう変化させたか、といった話のようである。これは採用の話だがtestingという広い文脈で捉えるとかなり参考になる話に見える。

Claudeを作っている会社が自社が作ったプロダクトによって採用で苦しむという構造になっており、それに対してどのように対処したかという話題は非常に興味深いトピックだと感じる。

ICLR 2026 Acceptance Prediction: Benchmarking Decision Process with A Multi-Agent System, Zhang+, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #LanguageModel #Evaluation #MultiModal #ScientificDiscovery #VisionLanguageModel #AcademicWriting #Live #One-Line Notes Issue Date: 2026-01-20 Comment

元ポスト:

Loading…

conference paperのpeer reviewに関するベンチマーク。accept/rejectを予測する。papers, reviews, rebuttalsそしてfinal decisionsが紐づけられている。

GLM-4.7-Flash, Z.ai, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #OpenWeight #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2026-01-20 Comment

元ポスト:

Loading…

30B-A3BのMoEモデルで、gpt-oss-20B, Qwen3-30B-A3B-Thinking-2507を、SWE Bench Verified, tau2_bench, BrowseComp(SWEタスク, tooluse, 検索）等で大幅にoutperform。AIME, GPQA, HLEなどの推論系のベンチマークも同等以上。つまり、agenticなタスクに適した能力を有することが示唆される。

ポイント解説:

Loading…

Pocket Flow: 100-line LLM framework. Let Agents build Agents, The-Rocket, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python #SoftwareEngineering #read-later #Selected Papers/Blogs #MinimalCode Issue Date: 2026-01-19 Comment

元ポスト:

Loading…

たったの100行で実現されるミニマルなAI Agent/LLMフレームワークで、9種類の抽象化（Node, Flow, Shared, ...)でchat, agent, workflow, RAG, MCP, A2Aなどの様々なLLMをベースとした機能を実装できるフレームワークな模様。コード読みたい

OctoCodingBench, MiniMaxAI, 2026.01

Paper/Blog Link My Issue
#Article #NLP #Dataset #Evaluation #Coding #SoftwareEngineering Issue Date: 2026-01-16 Comment

元ポスト:

Loading…

FrogMini-14B-2510, Microsoft, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Coding #OpenWeight #SoftwareEngineering #One-Line Notes Issue Date: 2026-01-16 Comment

元ポスト:

Loading…

strong modelから合成されたbug fixのtrajectoryでSFTすることで小規模モデルでSWE Benchの性能改善

元論文:
- [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12

LongCat-Flash-Thinking-2601, Meituan, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs Issue Date: 2026-01-15 Comment

元ポスト:

Loading…

解説:

Loading…

coding, agentiaなベンチでTopTierを獲得した560B-27BのMoEモデル。MIT Licence

1MコンテキストウィンドウのZigzag attentionのモデルもcoming soon...だと...!?

Zigzag attentionはおそらく以下だろうか:
- [Paper Note] Efficient Context Scaling with LongCat ZigZag Attention, Chen Zhang+, arXiv'25, 2025.12

Cowork: Claude Code for the rest of your work, Anthropic, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Blog Issue Date: 2026-01-13 Comment

元ポスト:

Loading…

競合（こちらは完全にオフラインで動作する）:
- 🍫 Local Cocoa: Your Personal AI Assistant, Fully Local 💻, synvo-ai, 2026.01

Loading…

SETA: Scaling Environments for Terminal Agents, CAMEL-AI, 2026.01

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #ReinforcementLearning #SyntheticData #Evaluation #Blog #Repository #SoftwareEngineering #PostTraining Issue Date: 2026-01-12 Comment

元ポスト:

Loading…

HF: https://huggingface.co/datasets/camel-ai/seta-env

GitHubのreadmeに日本語がある！？

Demystifying evals for AI agents, Anthropic, 2026.01

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Evaluation #Blog #Selected Papers/Blogs Issue Date: 2026-01-10 Comment

元ポスト:

Loading…

🍫 Local Cocoa: Your Personal AI Assistant, Fully Local 💻, synvo-ai, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #LanguageModel #MultiModal #Selected Papers/Blogs #ContextEngineering #memory Issue Date: 2026-01-09 Comment

元ポスト:

Loading…

Production-Grade Agentic AI System, FareedKhan-dev, 2025.12

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #SoftwareEngineering #read-later Issue Date: 2026-01-03 Comment

元ポスト:

Loading…

Today's conversations about AI-assisted programming are strikingly similar to those from decades ago about the choice between low-level languages like C versus high-level languages like Python, Arvind Narayanan, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Post #SoftwareEngineering Issue Date: 2025-12-31

Aligning to What? Rethinking Agent Generalization in MiniMax M2, MiniMaxAI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Blog #Reasoning #read-later Issue Date: 2025-12-27 Comment

元ポスト:

Loading…

GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Reasoning #OpenWeight #SoftwareEngineering #One-Line Notes #Reference Collection Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

HF: https://huggingface.co/zai-org/GLM-4.7

デザインアリーナでtop2:

Loading…

Artificial Intelligence Indexにおいて、OpenModelの中でトップ:

Loading…

GLM-4.6と比較して、コーディング/SWE, reasoning, tooluseなどの能力が大幅に向上

Interleaved Thinking, Preserved Thinking, Turn-level Thinkingの3つの特性がある。

Interleaved Thinkingは全てのレスポンスとtool callingの前にreasoningを挟むことで、IFや生成品質を向上。
Preserved Thinkingは過去のターンの全てのthinking blockのトークンを保持し、再計算もしないのでマルチターンでの一貫性が増す。
Turn-level Thinkingはターンごとにreasoningを実施するか否かをコントロールでき、latency/costを重視するか、品質を重視するかを選択できる、といった特徴がある模様。

モデルサイズは358B

OpenHands trajectories with Qwen3 Coder 480B, Nebius blog, 2025.12

Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #ReinforcementLearning #Blog #Coding #Reasoning #SoftwareEngineering #PostTraining Issue Date: 2025-12-24 Comment

元ポスト:

Loading…

A2UI: A Protocol for Agent-Driven Interfaces, Google, 2025

Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #SoftwareEngineering #VisionLanguageModel #One-Line Notes Issue Date: 2025-12-22 Comment

AI Agent (Gemini)を用いてUIを自動生成できるツールらしい

元ポスト:

Loading…

Equipping agents for the real world with Agent Skills, Anthropic, 2025.10

Paper/Blog Link My Issue
#Article #Tutorial #NLP #Blog #Selected Papers/Blogs #AgentSkills Issue Date: 2025-12-21

Agent Skills, OpenAI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #Repository #AgentSkills Issue Date: 2025-12-21 Comment

元ポスト:

Loading…

CodexにおけるSkillsのカタログ。

Agent Skillsを最初に提唱したのはAnthropicと記憶している:
- Equipping agents for the real world with Agent Skills, Anthropic, 2025.10

Introducing Bloom: an open source tool for automated behavioral evaluations, Anthropic, 2025.12

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Alignment #Evaluation #python #Safety Issue Date: 2025-12-21 Comment

元ポスト:

Loading…

ByteDance Doubao-Seed-1.8 Review, toyama nao, Zhihu, 2025.12

Paper/Blog Link My Issue
#Article #NLP #Evaluation #MultiModal #Reasoning #Proprietary #VisionLanguageModel Issue Date: 2025-12-20 Comment

元ポスト:

Loading…

Evaluating chain-of-thought monitorability, OpenAI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Chain-of-Thought #Evaluation #Reasoning #Safety #KeyPoint Notes #Monitorability Issue Date: 2025-12-19 Comment

元ポスト:

Loading…

Monitorabilityの定義が記述されているので覚えておくとよいかもしれない。
Monitorabilityを一言でいうと、"エージェントの挙動に関する重要な性質を正確に予測できる能力"ということっぽい。

Monitorabilityは以下の2つの側面を持ち、
>- Monitors. We could make monitors smarter in various ways, and we would like our evaluations to give higher scores to monitors that can make better predictions about an agent’s behavior.
>- Agents. There are many observations of the agent that could be given to the monitor, including the agent’s actions, outputs, neural activations, and recently with the advent of reasoning models, the chain-of-thought. It’s possible for some agents to have thoughts that are harder to understand than others, and so we would like our monitorability evaluations to be able to compare agents and not just monitors.

モニターそのものの賢さと、モニタリングされるエージェントも理解しやすいものとしづらいものがいるため、モニターの性能だけじゃなくてエージェントそのものも評価の対象にする必要がある。

monitarable / unmonitorable なCoTのサンプルとして以下が挙げられている。これは実際には実現不可能なコーディング課題が与えられているらしいのだが、左側はtestをpassしている（つまりなんかチートした）がそのことについてはCoTに言及されていない。一方、右側はチートに関して検討する様子がCoTに記述されており、これを見ることでユーザはモデルのよろしくない挙動に気付ける。

Seed1.8, ByteDance Seed, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Proprietary #ComputerUse #VisionLanguageModel Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

GUI Agentとして性能はトップレベル(Opusが比較対象に入っていないが）で、

テキスト、画像モダリティでの検索でもトップレベル、codingやツール利用などは少し劣るように見える。

LLM系、VideoUnderstanding系ののベンチマークではフロンティアモデル群と同等、VLM系のタスクではフロンティアモデル群と同等以上の性能に見える。

が、一方のモダリティはGPT5で比較しているのに対し、他方はGPT5.1であったりしており、比較対象が少し恣意的にピックされているのでは？という気もする。

モデルカード: https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/research/Seed-1.8-Modelcard.pdf

cua-bench: make your agents better at computers, Cua AI Team, 2025.12

Paper/Blog Link My Issue
#Article #Evaluation #ComputerUse Issue Date: 2025-12-17 Comment

元ポスト:

Loading…

SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12

Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #ReinforcementLearning #Proprietary #Selected Papers/Blogs #KeyPoint Notes #Scalability #train-inference-gap Issue Date: 2025-12-15 Comment

元ポスト:

Loading…

Figure4の話が非常に興味深い。rolloutの結果をtraining engineに渡す間のchat_templateによる抽象化では、マルチターン+tooluseにおいては、たとえばtool call周辺のホワイトスペースに関する情報を消してしまう問題がある。具体的には、一例として、ポリシーがホワイトスペースを含まないフォーマットの誤りがあるrolloutを生成した場合（＝B）を考える。これをtraining engineに渡す際は、以下のような操作を伴うが

>apply_chat_template(parse(B))=G′

この際に、parse→apply_chat_templateの過程でtoolcall周辺のホワイトスペースが補完されるためtraining側ではホワイトスペースが含まれたrollout時とはトークン列が与えられる。この結果、フォーマットに誤りがある状態でrolloutされたにも関わらず、trainingエンジン側では正しい生成結果に擬似的に見える（＝G')のだが、ホワイトスペースが含まれたことでトークナイズ結果が変わり、変化したトークンの部分が極端に小さなlogprobを持つことになる（i.e., ホワイトスペースは実装上の都合で生じ、ポリシーはそのトークンを（尤度が低く）出力していないにもかかわらず、出力されたことにされて学習される）。その結果、見かけ上は正しい生成結果なのだが、負のAdvantageを持つことになり、GRPOではそのような生成がされないように学習されてしまう。これが繰り返されることで、学習の安定性を損なう、という話である。

Devstral2 Mistral Vibe CLI State-of-the-art, open-source agentic coding models and CLI agent., Mistral AI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #OpenWeight #SoftwareEngineering Issue Date: 2025-12-10 Comment

SWE Bench VerifiedでOpenweightモデルの中ではSoTAと同等程度を達成。123B, 24Bの2種類がリリース。DeepSeekV3.2, Kimi K2よりも大幅に小さいパラメータで同等以上の性能。独自の人手評価（win, tie, loseのアリーナ形式）によるとSonnet 4.5には負けるがDeepSeekV3.2とは同等以上の割合で好まれた。

元ポスト:

Loading…

HF: https://huggingface.co/collections/mistralai/devstral-2

Titans + MIRAS: Helping AI have long-term memory, Google Research, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Test-Time Scaling #memory Issue Date: 2025-12-07 Comment

元ポスト:

Loading…

解説:

Loading…

ポイント解説:

Loading…

Architecting efficient context-aware multi-agent framework for production, Hangfei Lin, Google, 2025.12

Paper/Blog Link My Issue
#Article #NLP #Blog #read-later #Selected Papers/Blogs #ContextEngineering Issue Date: 2025-12-07 Comment

元ポスト:

Loading…

OpenThinker-Agent-v1, open-thoughts, 2025.12

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #SmallModel #OpenWeight #OpenSource #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-12-07 Comment

元ポスト:
-

Loading…

agenticなSLM（8Bモデル）で、モデル、データ（SFT, RL)、学習用のコードなど全て公開。同等規模のモデルQwen3-{8,32B}よりもSWE Bench Verified, Terminal Benchなどで上回る（ただし、Qwen3はgenericなモデルであり、コーディング特化のQwen3-coder-30Bには及ばない。しかしモデルサイズはこちらの方が大きいので何とも言えない。おそらく同等規模のコーディング特化Qwen3が存在しない）。また、SLMのコーディングエージェントの進化をより精緻に捉えるためのベンチマーク OpenThoughts-TB-Devも公開している。こちらでもQwen3-{8, 32B}に対しても高い性能を記録。

Improved accuracy in Smart Turn v3.1, Daily, 2025.12

Paper/Blog Link My Issue
#Article #NeuralNetwork #Transformer #SpeechProcessing #Blog #MultiLingual #OpenWeight #OpenSource #One-Line Notes #VAD Issue Date: 2025-12-04 Comment

dataset: https://huggingface.co/pipecat-ai
code: https://github.com/pipecat-ai/smart-turn
model: https://huggingface.co/pipecat-ai/smart-turn-v3

オープンソースのVoice Activity Detection (VAD)モデル。本ブログのv3.1では、TTSデータだけでなく英語とスペイン語の人間によるaudio sampleも追加し学習し性能向上。23言語をサポートし、Accuracyは90%以上を達成。数msでのリアルタイムなlatencyを達成できる。

バックボーンはWhisper Tiny encoderで、headとしてshallow linear classifiesを利用しているとのこと。

Whisper:
- [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12

Why （Senior） Engineers Struggle to Build AI Agents, PHILSCHMID, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #read-later Issue Date: 2025-11-27 Comment

元ポスト:

Loading…

veAgentBench, ByteDance, 2025.11

Paper/Blog Link My Issue
#Article #NLP #Dataset #Education #Evaluation #Financial #Legal Issue Date: 2025-11-26 Comment

元ポスト:

Loading…

Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Proprietary #Selected Papers/Blogs #Reference Collection Issue Date: 2025-11-25 Comment

元ポスト:

Loading…

AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還

システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

人間と比較した時のパフォーマンスの解説:

Loading…

EpochAIによるFrontierMath Tier1-3での評価:

Loading…

o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る

ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:

Loading…

Artificial Analysisの評価:

Loading…

スライドをいい感じに作れるらしい:

Loading…

50% time horizonは4時間49分で現在top。

Loading…

Stanford Agentic Reviewer, Stanford University, 2025.11

Paper/Blog Link My Issue
#Article #NLP #GenerativeAI #Blog #One-Line Notes Issue Date: 2025-11-25 Comment

元ポスト:

Loading…

Andrew Ng氏によるAI Agentによる論文のレビュワーシステムで、ICLR'25のレビューで学習し、テストセットで評価したところ、人間-人間間の相関と人間-AI間の相関係数が同等の水準に到達とのこと。ICLR'25のレビューで学習しているということは当該ドメインに近しい研究であるほど適切なレビューが実施されるであろう点に注意。

Introducing Navigator, Yutori team, 2025.11

Paper/Blog Link My Issue
#Article #NLP #Blog #Proprietary #ComputerUse #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-20 Comment

元ポスト:

Loading…

gemini2.5, claude4.5, openaioperator等よりも性能が良いweb agentらしい

Previewing Locus, INTOLOGY, 2025.11

Paper/Blog Link My Issue
#Article #NLP #Blog #ScientificDiscovery #Test-Time Scaling #LongHorizon Issue Date: 2025-11-20 Comment

元ポスト:

Loading…

所見:

Loading…

AI Model Benchmarks Nov 2025, lmcouncil, 2025.11

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #Blog Issue Date: 2025-11-19 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

LLM Datasets, mlabonne, 2025.11

Paper/Blog Link My Issue
#Article #Survey #NLP #Dataset #LanguageModel Issue Date: 2025-11-19 Comment

元ポスト:

Loading…

Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11

Paper/Blog Link My Issue
#Article #LanguageModel #GenerativeAI #Blog #Proprietary #SoftwareEngineering Issue Date: 2025-11-19 Comment

元ポスト:

Loading…

google謹製のAI Agent FirstなIDE、らしい

Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Blog #OpenWeight #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #Grounding #GUI Issue Date: 2025-11-14 Comment

HF: https://huggingface.co/collections/Hcompany/holo2

元ポスト:

Loading…

Lessons from the Trenches on Building Usable Coding Agents - Graham Neubig, Graham Neubig, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Video Issue Date: 2025-11-09 Comment

元ポスト:

Loading…

戦えるAIエージェントの作り方, Takuya Akiba, SakanaAI, 2025.10

Paper/Blog Link My Issue
#Article #Tutorial #Slide #Test-Time Scaling #One-Line Notes Issue Date: 2025-11-01 Comment

元ポスト:

Loading…

SakanaAIの研究を中心に、特に推論時スケーリング（test time scaling)の話が紹介されている。

Introducing Aardvark: OpenAI’s agentic security researcher, OpenAI, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #One-Line Notes #Security Issue Date: 2025-10-31 Comment

元ポスト:

Loading…

> In benchmark testing on “golden” repositories, Aardvark identified 92% of known and synthetically-introduced vulnerabilities, demonstrating high recall and real-world effectiveness.

合成された脆弱性については92%程度検出できたとのこと。Claudeとかだとこの辺はどの程度の性能なのだろう。

Introducing SWE-1.5: Our Fast Agent Model, Cognition, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #SoftwareEngineering Issue Date: 2025-10-30 Comment

元ポスト:

Loading…

windsurfから利用可能とのこと

AIエージェントのためのコンテキストエンジニアリング：Manus構築から得た教訓, Manus AI, 2025.07

Paper/Blog Link My Issue
#Article #NLP #Blog #ContextEngineering #reading Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

KV Cacheのhit率がまず重要で、TTFTの速さと、コストの双方に影響する。1トークンでも異なるとCacheがhitしなくなるので、注意を払う。たとえば、Contextのfeedが決定論的であることを確認し、prompt冒頭にタイムスタンプを含めるなどは避ける。セルフホスティングの場合はルーティングによってCacheが働くように共通のワーカーを一貫して使う。

LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント, Masaomi Tokunaga+, 2025.10

Paper/Blog Link My Issue
#Article #Tutorial #Blog Issue Date: 2025-10-27 Comment

元ポスト:

Loading…

langchain, langgraphを用いたReActエージェントの実装方法のチュートリアルと、さまざまなフレームワークで記述されたエージェントの差分を吸収して統一されたプラットフォーム上でエージェントを実装できる（framework-agnosticな)NeMo Agent Toolkitによる実装

ReAct:
- [Paper Note] ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao+, ICLR'23, 2022.10

Building the Open Agent Ecosystem Together: Introducing OpenEnv, openenv, 2025.10

Paper/Blog Link My Issue
#Article #NLP #Selected Papers/Blogs #Standardization Issue Date: 2025-10-25 Comment

元ポスト:

Loading…

AIエージェントを学習、運用するためのenvironmentを標準化し、共有可能にする取り組み。Meta PyTorchとHFの共同。

標準化:
- エージェントのコアアーキテクチャ（Environment,Task, Agentなど）: https://github.com/meta-pytorch/OpenEnv/blob/main/rfcs/001-abstractions.md
- インタフェース等: https://github.com/meta-pytorch/OpenEnv/blob/main/rfcs/002-env-spec.md
- MCPツールのカプセル化: https://github.com/meta-pytorch/OpenEnv/blob/main/rfcs/003-mcp-support.md
- エージェントのアクション: https://github.com/meta-pytorch/OpenEnv/blob/main/rfcs/004-actions-as-tool-calls.md

Environment Hub: https://huggingface.co/openenv

Introducing torchforge – a PyTorch native library for scalable RL post-training and agentic development, PyTorch team at Meta, 2025.10

Paper/Blog Link My Issue
#Article #NLP #Library #ReinforcementLearning #Blog #Selected Papers/Blogs Issue Date: 2025-10-25 Comment

元ポスト:

Loading…

Introducing ControlArena: A library for running AI control experiments, AISI, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Safety Issue Date: 2025-10-23 Comment

元ポスト:

Loading…

FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10

Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #Dataset #Transformer #Evaluation #SoftwareEngineering #GPUKernel Issue Date: 2025-10-22 Comment

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10

Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion #ContinualLearning Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

（整理すると楽しそうなので後で関連しそうな研究を他にもまとめる）

とても勉強になる！AIに代替されない20%, 1%になるには果たして

所見:

Loading…

Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval, Cognition, 2025.10

Paper/Blog Link My Issue
#Article #Multi #EfficiencyImprovement #ReinforcementLearning #Blog #Proprietary #Parallelism #ContextEngineering #KeyPoint Notes Issue Date: 2025-10-18 Comment

元ポスト:

Loading…

最大で4 turnの間8つのツールコール（guessingとしては従来モデルは1--2, Sonnet-4.5は1--4)を並列する（3 turnは探索、最後の1 turnをanswerのために使う) parallel tool calls を効果的に実施できるように、on policy RLでマルチターンのRLを実施することで、高速で正確なcontext retrievalを実現した、という感じらしい。

従来のembedding-basedなdense retrieverは速いが正確性に欠け、Agenticなsearchは正確だが遅いという双方の欠点を補う形。

parallel tool callというのは具体的にどういうtrajectoryになるのか…？

Context Engineering in Manus, Lance's Blog, 2025.10

Paper/Blog Link My Issue
#Article #Tutorial #NLP #Blog #ContextEngineering #One-Line Notes Issue Date: 2025-10-18 Comment

元ポスト:

Loading…

- Reduce
- Offload
- Isolate

図解つきで各コンセプトについて非常に詳細に記述されている。最後のConclusionを見ればコンパクトに概要をつかめる。

Harnessを利用してLLMアプリケーション評価を自動化する, LINEヤフーテックブログ, 2024.12

Paper/Blog Link My Issue
#Article #LanguageModel #MLOps #Blog #SoftwareEngineering Issue Date: 2025-10-13

supermemory, supermemoryai, 2025.10

Paper/Blog Link My Issue
#Article #NLP #Personalization #Repository #API #SoftwareEngineering #memory Issue Date: 2025-10-13

Building Brain-Like Memory for AI | LLM Agent Memory Systems, Adam Lucek, 2025.01

Paper/Blog Link My Issue
#Article #Tutorial #NLP #Video #memory Issue Date: 2025-10-13 Comment

元ポスト:

Loading…

Shipping with Codex, OpenAI, 2025.10

Paper/Blog Link My Issue
#Article #NLP #GenerativeAI #Coding #Video #SoftwareEngineering #One-Line Notes Issue Date: 2025-10-12 Comment

元ポスト:

Loading…

OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。

K2 Vendor Verifier, MoonshotAI, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #OpenWeight Issue Date: 2025-10-12 Comment

Kimi K2のプロバイダー間でのツール呼び出しの性能の違いを確認できる

元ポスト:

Loading…

Making AI citations count with Asta, AI2, 2025.10

Paper/Blog Link My Issue
#Article #Citations #NLP #Blog #ScientificDiscovery #One-Line Notes Issue Date: 2025-10-09 Comment

RAGベースの研究支援プラットフォームAstaに対して送信されたクエリに対して、システムが引用した研究論文に関する統計情報を公開したとのこと。興味深い。

citationに関するデータはこちら:
https://huggingface.co/datasets/allenai/asta-summary-citation-counts

定期的に更新するとのこと。

terminal-bench: a benchmark for ai agents in terminal environments, laude-institute,

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #SoftwareEngineering Issue Date: 2025-10-07 Comment

元ポスト:

Loading…

エージェント機能が大幅に強化されたPLaMo 2.1 Primeの提供開始, PFN, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Japanese Issue Date: 2025-10-07 Comment

マルチターンのtool callingのベンチマークのSimple, Multiple（それぞれ単一ツール呼び出し、複数のツールの中から適切なツールを呼び出す能力）でBFCVv3でGPT-5超え。ただしGPT-5はツール呼び出しではなくユーザと対話する傾向にあるため、chatアプリケーションではこちらの方が有用な場合があるので全てのユースケースでPLaMoが上回ることを示しているわけではない、という注釈がついている。より実験的な環境であるLive MultipleではGPT-5の方がスコアが高い模様。
- BFCLv2, UC Berkeley, 2024.08

単一呼び出し、複数定義されている中から適切なツールを呼び出すことで済むようなユースケースの場合は検討の余地があると思われる。ただし細かいreasoning_effortやverbosity等のパラメータ設定が記述されていないように見えるので、その辺はどうなんだろうか。

PipelineRL, Piche+, ServiceNow, 2025.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Repository #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-05 Comment

code: https://github.com/ServiceNow/PipelineRL

元ポスト:

Loading…

Inflight Weight Updates

（この辺の細かい実装の話はあまり詳しくないので誤りがある可能性が結構あります）
通常のon-policy RLでは全てのGPU上でのsequenceのロールアウトが終わるまで待ち、全てのロールアウト完了後にモデルの重みを更新するため、長いsequenceのデコードをするGPUの処理が終わるまで、短いsequenceの生成で済んだGPUは待機しなければならない。一方、PipelineRLはsequenceのデコードの途中でも重みを更新し、生成途中のsequenceは古いKV Cacheを保持したまま新しい重みでsequenceのデコードを継続する。これによりGPU Utilizationを最大化できる（ロールアウト完了のための待機時間が無くなる）。また、一見古いKV Cacheを前提に新たな重みで継続して部分sequenceを継続するとポリシーのgapにより性能が悪化するように思えるが、性能が悪化しないことが実験的に示されている模様。

Conventional RLの疑似コード部分を見るととてもわかりやすくて参考になる。Conventional RL（PPOとか）では、実装上は複数のバッチに分けて重みの更新が行われる（らしい）。このとき、GPUの利用を最大化しようとするとバッチサイズを大きくせざるを得ない。このため、逐次更新をしたときのpolicyのgapがどんどん蓄積していき大きくなる（=ロールアウトで生成したデータが、実際に重み更新するときにはlagが蓄積されていきどんどんoff-policyデータに変化していってしまう）という弊害がある模様。かといってlagを最小にするために小さいバッチサイズにするとgpuの効率を圧倒的に犠牲にするのでできない。Inflight Weight Updatesではこのようなトレードオフを解決できる模様。

また、trainerとinference部分は完全に独立させられ、かつplug-and-playで重みを更新する、といった使い方も想定できる模様。

あとこれは余談だが、引用ポストの主は下記研究でattentionメカニズムを最初に提案したBahdanau氏である。
- [Paper Note] Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau+, ICLR'15

続報:

Loading…

論文:
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09

続報:

Loading…

PFN LLMセミナー, PFN, 2025.10

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #LLMServing #Japanese #PostTraining Issue Date: 2025-10-05 Comment

元ポスト:

Loading…

Effective context engineering for AI agents, Anthropic, 2025.09

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Comment

元ポスト:

Loading…

AnthropicによるContextEngineeringに関するブログ。
ざーっとみた感じ基礎的な定義からなぜ重要なのか、retrievalの活用、longnhorizon taskでの活用、compaction(summarization)など、幅広いトピックが網羅されているように見える。

所見:

Loading…

Pepper: A Real‑Time, Event‑Driven Architecture for Proactive Agentic Systems, Agentica Team, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Personalization #Blog #Architecture #interactive Issue Date: 2025-10-03 Comment

元ポスト:

Loading…

受動的なエージェントではなく、ユーザに対して能動的に働きかけてくるイベントドリブンなAI Agentのアーキテクチャ提案と、そのためのライブラリな模様。

GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-09-29 Comment

米国のGDPを牽引する9つの代表的な産業において、44の職種を選定し、合計1320件の実務タスクを設計したベンチマーク。ベンチマークは平均14年程度の経験を持つ専門家が実際の業務内容をもとに作成し、（うち、約220件はオープンソース化）、モデルと専門家のsolutionにタスクを実施させた。その上で、第三者である専門家が勝敗（win, lose, tie)を付与することでモデルがどれだけ実務タスクにおいて人間の専門家に匹敵するかを測定するベンチマークである。

評価の結果、たとえばClaude Opus 4.1の出力は47.6%程度、GPT-5 (high) は38.8%程度の割合で専門家と勝ち + 引き分け、という性能になっており、人間の専門家にかなり近いレベルにまで近づいてきていることが分かる。特にClaude Opus 4.1はデザインの品質も問われるタスク（ドキュメントの書式設定、スライドレイアウトなど）で特に優れているとのこと。

limitationとしては、
- 網羅性: データセットサイズが小さく、occupationごとの30タスクしかデータがないこと
- 自己完結型・知識労働への偏り: コンピュータ上でのタスクに限定されており、肉体労働や暗黙知が多いタスク、個人情報へのアクセス、企業内の専用ツールを利用した作業や他社とのコミュニケーションが必要なタスクは含まれていない。
- 完全な文脈: 完全な文脈を最初からpromptで与えているが、実際は環境とのインタラクションが必要になる。
- grader performance: 自動評価は人間の専門家の評価に比べると及ばない

といったことが書かれている。

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

How to Fix Your Context, dbreunig.com, 2025.07

Paper/Blog Link My Issue
#Article #DocumentSummarization #InformationRetrieval #NLP #Pruning #RAG(RetrievalAugmentedGeneration) #Blog #SoftwareEngineering #ContextEngineering Issue Date: 2025-09-28 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09

Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #LanguageModel #ReinforcementLearning #Blog #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 Comment

元ポスト:

Loading…

訓練時のエンジン(fsdp等)とロールアウト時のエンジン(vLLM等)が、OOVなトークンに対して（特にtooluseした場合に生じやすい）著しく異なる尤度を割り当てるため学習が崩壊し、それは利用するGPUによっても安定性が変化し（A100よりもL20, L20よりもH20)、tokenレベルのImporttance Weightingでは難しく、Sequenceレベルのサンプリングが必要、みたいな話な模様。

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

そもそもFlashAttnention-2 kernelにバグがあり、A100/L20で特定のカーネルが呼ばれるとミスマッチが起きるのだとか。vLLM Flashattentionリポジトリのissue 87によって解決済み。~~具体的にどのカーネル実装なのだろうか。~~　（vLLM Flashattentionリポジトリだった模様）
https://github.com/vllm-project/flash-attention

disable_cascade_attnの設定値を何回も変えたけどうまくいかないよという話がある:

Loading…

Liquid Nanos, LiquidAI, 2025.09

Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Mathematics #SmallModel #OpenWeight #Japanese #DocParser #EdgeDevices Issue Date: 2025-09-26 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと！？

タスクスペシフィックなedgeデバイス向けのSLM群。

以下のようなモデルファミリー。非構造テキストからのデータ抽出、日英翻訳、RAG, tooluse, Math, フランス語のチャットモデル。これまでマルチリンガルに特化したMTとかはよく見受けられたが、色々なタスクのSLMが出てきた。

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

Vibe Coding Cleanup as a Service, Donado Labs, 2025.09

Paper/Blog Link My Issue
#Article #Blog #Coding Issue Date: 2025-09-23 Comment

元ポスト:

Loading…

Tongyi DeepResearch: A New Era of Open-Source AI Researchers, Tongyi Lab, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #DeepResearch Issue Date: 2025-09-17 Comment

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25, 2025.01
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

Agent Payments Protocol （AP2）, Google, 2025.09

Paper/Blog Link My Issue
#Article #Blog Issue Date: 2025-09-17 Comment

AI Agentにpaymentをさせるためのsecureなプロトコルな模様

元ポスト:

Loading…

OpenManus, Liang+, FoundationAgents, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository #OpenSource #DeepResearch Issue Date: 2025-09-13

OpenDeepResearch, LangChain, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository #OpenSource #DeepResearch Issue Date: 2025-09-13 Comment

blog: https://blog.langchain.com/open-deep-research/

Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Proprietary #DeepResearch Issue Date: 2025-09-13

Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Blog #ContextEngineering Issue Date: 2025-09-11 Comment

元ポスト:

Loading…

OpenHands PR Arena, neulab, 2025.09

Paper/Blog Link My Issue
#Article #Dataset #Evaluation #Repository #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 Comment

元ポスト:

Loading…

実際に存在するIssueにタグ付けすることで、リアルタイムに複数LLMによってPRを作成（API callはOpenHandswが負担する）し、ユーザは複数LLMの中で良いものを選択する、といったことができる模様？リーダーボードも将来的に公開するとのことなので、実際にユーザがどのモデルのoutputを選んだかによって勝敗がつくので、それに基づいてランキング付けをするのだろうと推測。興味深い。

The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08

Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #ScientificDiscovery Issue Date: 2025-09-01 Comment

元ポスト:

Loading…

NEC、暗黙知をデータ化し学習・活用することでWeb業務を自動化するエージェント技術「cotomi Act」を開発〜世界初、人間を超えるWebタスク成功率80.4％を達成〜, NEC, 2025.08

Paper/Blog Link My Issue
#Article #NLP #Blog #ComputerUse Issue Date: 2025-08-27 Comment

元ポスト:

Loading…

WebArena:
- [Paper Note] WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24

Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08

Paper/Blog Link My Issue
#Article #Tutorial #Blog Issue Date: 2025-08-25 Comment

元ポスト:

Loading…

DeepCode, Data Intelligence Lab@HKU, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository #Coding Issue Date: 2025-08-19 Comment

研究論文からコードを生成するpaper2code、テキストからweb pageを生成するtext2web、textからスケーラブルなバックエンドを構築するtext2backendを現状サポートしているvibe coding frameworkらしい。
論文のベンチマークの再現の自動化やパフォーマンス向上、自動コード検証などが追加されるらしい。

研究の出版に対して再現実験など現状到底間に合わないので、再現性があるかどうかを自動的に検証して欲しいなぁ、とは思っていたので個人的に嬉しい。

Introducing Kaggle Game Arena, Meg Risdal, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Blog #Game Issue Date: 2025-08-06 Comment

元ポスト:

Loading…

現在はチェスのみの模様

チェスときくとこの研究を思い出す:
- Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18

Claude Opus 4.1, Anthropic, 2025.08

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Blog #Coding #Proprietary Issue Date: 2025-08-06 Comment

他モデルとの性能比較:

やはりコーディングでは（SNS上での口コミでは非常に高評価なように見えており、かつ）o3やGeminiと比較してClaudeがベンチ上でも高い性能を示している模様。

元ポスト:

Loading…

運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07

Paper/Blog Link My Issue
#Article #Coding #Slide #SoftwareEngineering #Sequrity Issue Date: 2025-07-26

Python Template for Claude Code （Cookiecutter）, zerebom, 2025.07

Paper/Blog Link My Issue
#Article #project_template #python #Coding #SoftwareEngineering Issue Date: 2025-07-26 Comment

元ポスト:

Loading…

AI時代のソフトウェア開発を考える（2025_07版） _ Agentic Software Engineering Findy 2025-07 Edition, Takuto Wada, 2025.07

Paper/Blog Link My Issue
#Article #NLP #Coding #Slide Issue Date: 2025-07-25 Comment

Vibe Codingによってソフトウェアエンジニアリングの課題は解決されたわけではなく、昔からある問題は依然として存在し（技術的負債、レビューなど）、道具が変わりこれらが顕在化するスピードが急速に速まっただけ、という話な模様。
どの領域に、どのAIを使うか（委託, 伴走）なども考察されている。ロジックの複雑さが小さいものは委託（補完など）、ロジックの複雑さが高く競合との差別化が重要なエリアには伴走、といった使い方。AIは自走するが迷走、暴走もするのでガードレールがより一層重要。自分自身の能力の向上も不可欠。

Qwen Code, Qwen Team, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository #Coding Issue Date: 2025-07-23

Claude Code の Context Engineering, schroneko, 2025.07

Paper/Blog Link My Issue
#Article #Coding #Slide #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-06

Context Engineering - What it is, and techniques to consider, llamaindex, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-04 Comment

元ポスト:

Loading…

The New Skill in AI is Not Prompting, It's Context Engineering, PHLSCHMID, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-04 Comment

元ポスト:

Loading…

rLLM, Agentica, 2025.06

Paper/Blog Link My Issue
#Article #NLP #Library #ReinforcementLearning #PostTraining Issue Date: 2025-07-04 Comment

>rLLM is an open-source framework for post-training language agents via reinforcement learning. With rLLM, you can easily build their custom agents and environments, train them with reinforcement learning, and deploy them for real-world workloads.

なるほど。
バックボーンにはverlが採用されており、シンプルかつ統一的なインタフェースでカスタムエージェントが学習できる模様？

https://rllm-project.readthedocs.io/en/latest/#key-features

元ポスト:

Loading…

v0.2がリリースされ、任意のagentia programの学習がサポートされた模様（マルチエージェントや複雑なワークフローに基づくものなど）:

Loading…

AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Coding #SoftwareEngineering #read-later #Author Thread-Post Issue Date: 2025-06-23 Comment

元ポスト:

Loading…

AI-assisted coding for teams that can't get away with vibes, Atharva Raykar, 2025.05

Paper/Blog Link My Issue
#Article #Blog #Coding #SoftwareEngineering #read-later Issue Date: 2025-06-21 Comment

元ポスト:

Loading…

Single vs Multi-Agent System?, PHILSCHMID, 2025.06

Paper/Blog Link My Issue
#Article #NLP #Blog #read-later #Author Thread-Post Issue Date: 2025-06-21 Comment

元ポスト:

Loading…

Don’t Build Multi-Agents, Cognition, 2025.06

Paper/Blog Link My Issue
#Article #Multi #NLP #Blog #read-later #ContextEngineering #Reference Collection Issue Date: 2025-06-17 Comment

元ポスト:

Loading…

まとめ:

Loading…

OpenAI-Codex, OpenAI, 2025.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Coding #One-Line Notes #Reference Collection Issue Date: 2025-05-18 Comment

OpenHandsのNeubig氏が、OpenAIのブログポスト中で報告されているSWE-Bench Verifiedのスコアについて、言及している。OpenAIは23個サンプルについて(internal infrastructureで動作させられないため)除外しているので、その分スコアに下駄が履かれているようで、ブログ中のpassNのスコアを他のリーダーボードのスコアと比較する際には注意が必要っぽい。

Loading…

Agent Frameworkはどれを使うべきか [タスク性能編], はち, 2025.05

Paper/Blog Link My Issue
#Article #Analysis #NLP #Library #Blog #One-Line Notes #Author Thread-Post Issue Date: 2025-05-06 Comment

各フレームワーク毎の性能の違いや消費したトークン数、実装の微妙や違いがまとめられており、太字でtakeawayが記述されているので非常にわかりやすい。

元ポスト:

Loading…

Cursor_Devin全社導入の理想と現実, Ryoichi Saito, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Slide #SoftwareEngineering #Reading Reflections Issue Date: 2025-04-26 Comment

Devinの思わぬ挙動のくだりが非常に面白かった。まだまだ使いづらいところが多そうだなあ…。

Deepwiki, Cognition, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Repository #One-Line Notes Issue Date: 2025-04-26 Comment

githubリポジトリに関するリッチなドキュメントに対してDevinを通じて対話的に質問ができる模様。サインアップ不要で、githubリポジトリのドメインをdeepwikiに変えるだけで利用可能

BFCLv2, UC Berkeley, 2024.08

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #API #Selected Papers/Blogs #One-Line Notes #ToolUse Issue Date: 2025-04-08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

The TypeScript Agent Framework, mastra, 2025.03

Paper/Blog Link My Issue
#Article #NLP #Library Issue Date: 2025-03-16 Comment

日本語解説: https://zenn.dev/yosh1/articles/mastra-ai-agent-framework-guide

Model Context Protocol （MCP）, Anthropic

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SoftwareEngineering #Selected Papers/Blogs #MCP Issue Date: 2025-03-15 Comment

下記リンクのMCPサーバ/クライアントの作り方を読むとだいぶ理解が捗る:
https://modelcontextprotocol.io/quickstart/server
https://modelcontextprotocol.io/quickstart/client

browser-useの基礎理解, むさし, 2024.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #ComputerUse #Reading Reflections Issue Date: 2025-03-15 Comment

公式リポジトリ: https://github.com/browser-use/browser-use

BrowserUseはDoMを解析するということは内部的にテキストをLLMで処理してアクションを生成するのだろうか。OpenAIのComputer useがスクリーンショットからアクションを生成するのとは対照的だと感じた（小並感）。

- OpenAI API での Computer use の使い方, npaka, 2025.03

AI_Agent_の作り方_近藤憲児, Kenji KONDO, 2025.03

Paper/Blog Link My Issue
#Article #LanguageModel #Slide Issue Date: 2025-03-14

OpenAI API での Computer use の使い方, npaka, 2025.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #ComputerUse #Reading Reflections Issue Date: 2025-03-12 Comment

OpenAIのCompute Useがどのようなものかコンパクトにまとまっている。勉強になりました。

公式: https://platform.openai.com/docs/guides/tools-computer-use

Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenSource #DeepResearch Issue Date: 2025-03-12

smolagents, HuggingFace, 2025.03

Paper/Blog Link My Issue
#Article #LanguageModel #Library Issue Date: 2025-03-06 GPT Summary- smolagentsは、数行のコードで強力なエージェントを構築できるライブラリで、シンプルなロジック、コードエージェントのサポート、安全な実行環境、ハブ統合、モデルやモダリティに依存しない設計が特徴。テキスト、視覚、動画、音声入力をサポートし、さまざまなツールと統合可能。詳細はローンチブログ記事を参照。

Introducing the SWE-Lancer benchmark, OpenAI, 2025.02

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2025-03-02 Comment

元ポスト:

Loading…

1400以上のフリーランスソフトウェアエンジニアリングタスクを集めたベンチマーク。タスクはバグ修正から機能実装まで多岐にわたり、経験豊富なエンジニアによって評価されたもの。

Llama Stack, Meta, 2024.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #RAG(RetrievalAugmentedGeneration) #One-Line Notes Issue Date: 2025-01-25 Comment

Llamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。

すごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。

MLE-Bench, OpenAI, 2024.10

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #AutoML #One-Line Notes Issue Date: 2024-10-20 Comment

75のkaggleのcompetitionsを収集（賞金1.9M$に相当する）し、そこから機械学習モデルの構築するためのエンジニアリングタスク（データセットの準備, モデルの学習, 実験）を抽出し、AI Agentsが機械学習モデルのこれらエンジニアリングタスクに対してどの程度実施できるかを測定できるようにしたベンチマーク

AutoGen, Microsoft, 2024.10

Paper/Blog Link My Issue
#Article #LanguageModel #Library #Repository #Conversation #MCP #One-Line Notes Issue Date: 2024-10-02 Comment

マルチエージェントを構築するためのフレームワーク。MCP Serverとの連携も可能で、AssistantAgent classを入れ子のように設定することで、親エージェントが特定領域に特化した子エージェントをtool useとして呼び出すようなマルチエージェントを構築できるように見受けられる。

PaperQA2, Future-House, 2023.02

Paper/Blog Link My Issue
#Article #NLP #QuestionAnswering #GenerativeAI #RAG(RetrievalAugmentedGeneration) #Repository #Author Thread-Post Issue Date: 2024-09-11 Comment

元ポスト:

Loading…

OpenDevin: Code Less, Make More, 2024

Paper/Blog Link My Issue
#Article #NaturalLanguageGeneration #NLP #LanguageModel #Repository #One-Line Notes Issue Date: 2024-07-04 Comment

LLMによるOpenSourceなソフトウェア生成エージェントプラットフォーム

full timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。
参考:

Loading…

Open化される前の最初のDevinのツイート

Loading…

IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」, Michimasa Inaba, 2023.10

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Chain-of-Thought #Slide #One-Line Notes Issue Date: 2023-11-01 Comment

LLMの応用研究やPromptingを中心としたチュートリアル。アノテーションや対話式推薦システムへの活用、ReAct、プロンプトの最適化技術、CoTの基本から応用まで幅広くまとまっているので、LLMの応用技術の概観や、CoTを実践したい人に非常に有用だと思う。

Agents: An opensource framework for autonomous language agents

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #One-Line Notes Issue Date: 2023-09-30 Comment

以下の特徴を持つLLMAgent開発のためのフレームワーク

- long-short term memory
- tool usage
- web navigation
- multi-agent communication
- human-agent interaction
- symbolic control

また、他のAgent frameworkと違い、ゴールを達成するだの細かいプランニングを策定（SOP; サブタスクとサブゴールを定義）することで、エージェントに対してきめ細かなワークフローを定義できる。

Llamaindex

Paper/Blog Link My Issue
#Article #Tools #InformationRetrieval #NLP #Library #Reference Collection Issue Date: 2023-04-22 Comment

- LlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた

- https://dev.classmethod.jp/articles/llama-index-insert-index/

LangChain

Paper/Blog Link My Issue
#Article #Tools #InformationRetrieval #NLP #LanguageModel #Library #Reference Collection Issue Date: 2023-04-21 Comment

- LangChain の Googleカスタム検索連携を試す

- https://note.com/npaka/n/nd9a4a26a8932

- LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents

- https://zenn.dev/kun432/scraps/8216511783e3da