Environment
[Paper Note] HippoCamp: Benchmarking Contextual Agents on Personal Computers, Zhe Yang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #Search #Dataset #AIAgents #Personalization #Evaluation #MultiModal #VisionLanguageModel #One-Line Notes Issue Date: 2026-04-04 GPT Summary- HippoCampは、エージェントのマルチモーダルファイル管理能力を評価する新しいベンチマーク。ユーザー中心の環境でエージェントを評価し、個々のユーザープロファイルをモデル化し、膨大な個人ファイルを検索。42.4 GBに及ぶ2,000件以上の実世界ファイルから581のQAペアを構築し、エージェントの検索や推論能力を評価。最先端のマルチモーダル大規模言語モデルは、ユーザープロファイリング精度が48.3%に留まり、個人ファイルシステムにおける検索や推論に苦戦。HippoCampは、現行エージェントの制約を浮き彫りにし、次世代AIアシスタント開発の基盤を提供。 Comment
pj page: https://hippocamp-ai.github.io/
元ポスト:
「私の水曜日の予定はなんですか?」といったような、user-centricなタスクにおける、ユーザ個人のcontextを含むファイル検索やプロファイリング、reasoningを必要とする、よりuser-centricな情報を扱う必要があるベンチマークのようである。ユーザのプロファイルやpersonal情報が格納されたEnvironmentが提供されている。
environment: https://hippocamp-ai.github.io/hippocamp/
[Paper Note] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale, Ibragim Badertdinov+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Coding #SoftwareEngineering #PostTraining #read-later #Selected Papers/Blogs #Live #One-Line Notes Issue Date: 2026-03-05 GPT Summary- SWEエージェントの強化学習を支えるため、実世界のソフトウェア工学タスクを自動収集し、再現可能な環境を構築するSWE-rebench V2を提案。20言語・3,600超のリポジトリから32,000以上のタスクを集め、厳選したコンテンツで信頼性のあるトレーニングデータを提供。また、タスク生成に必要なメタデータも加え、エラー要因を明示。データセットと関連リソースを公開し、多様な言語での大規模なSWEエージェントのトレーニングを支援。 Comment
元ポスト:
environment: https://huggingface.co/datasets/nebius/SWE-rebench-V2?row=5
関連:
- [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, NeurIPS'25, 2025.05
以前の研究ではpython特化だったが、今回はlanguage-agnosticな環境になっている。
合成データではなく、実際のissue-resolutionのヒストリに基づいたデータセットであることに注意
[Paper Note] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation, Weinan Dai+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SyntheticData #Coding #GPUKernel #Rubric-based Issue Date: 2026-03-04 GPT Summary- CUDAカーネル最適化は深層学習の核だが、専門知識が求められる。大規模言語モデル(LLMs)は従来のCUDAコード生成において限界があり、内部最適化能力が向上しない。私たちはCUDA Agentを提案し、データ合成、信頼性の高い報酬信号の提供、安定した強化学習を通じてCUDAカーネルの専門知識を育成。KernelBenchで最先端の結果を達成し、torch.compileよりも各レベルで大幅に高速化。最強商用モデルを約40%上回る性能を示す。 Comment
pj page: https://cuda-agent.github.io/
元ポスト:
解説:
[Paper Note] On Data Engineering for Scaling LLM Terminal Capabilities, Renjie Pi+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SyntheticData #Coding #OpenSource #SoftwareEngineering #Initial Impression Notes #Terminal Issue Date: 2026-02-28 GPT Summary- ターミナルエージェントのトレーニングデータ戦略に関するギャップを埋めるため、(1) 軽量な合成タスク生成パイプラインTerminal-Task-Genを提供し、(2) データと訓練戦略を総合的に分析。これにより、Nemotron-Terminalファミリーを訓練し、Terminal-Bench 2.0で性能を大幅に改善。ほぼすべての合成データセットをオープンソース化し、研究の加速を図る。 Comment
元ポスト:
terminalエージェントのための合成データを作成する環境と実際に作成されたSFT用のデータセットの公開をしているようである。
[Paper Note] Hybrid-Gym: Training Coding Agents to Generalize Across Tasks, Yiqing Xie+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2026-02-21 GPT Summary- 実際のコーディングエージェントの評価は、SWE-Benchのような単一課題に依存せず、より複雑なタスクを解決する能力に重点を置く。本研究では、転移可能なスキルを明らかにし、それを学習するための原則を導出し、Hybrid-Gymという訓練環境を提案。訓練を受けたエージェントは多様な実世界タスクに効果的に一般化し、基礎モデルの性能を大幅に向上させた。 Comment
元ポスト:
関連:
pj page: https://hybrid-gym.github.io/
[Paper Note] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents, Zheng Chu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#GraphBased #NLP #Search #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #mid-training #PostTraining #VisionLanguageModel #2D (Image) #KeyPoint Notes #LongHorizon Issue Date: 2026-02-18 GPT Summary- REDSearcherは、大規模言語モデルを用いた探索エージェント最適化のための統一フレームワークであり、複雑なタスクの合成や中間訓練を効率化する。具体的には、タスクの難易度を正確に制御し、ツール使用を促進。また、基本能力や知識の強化を通じて高品質な軌跡収集を低コスト化。迅速なアルゴリズム的反復が可能なシミュレート環境を構築し、テキスト・マルチモーダル両方のベンチマークで最先端性能を達成。高品質な探索軌跡やクエリセットを公開し、今後の研究を促進する。 Comment
pj page: https://redsearchagent.github.io/index/
元ポスト:
ざっくりとしか読めていないが、ポイントはQAを構築する際のreasoningngraphに基づく複雑度の管理と、5段階のverifierによる低品質なQAの除去にあるように見える。
QAを合成する際にQAに回答するためのreasoning graphをKGに基づいて構築し、QAに回答するための情報を網羅するための深さをQAの構造的な複雑さとし、また応答するための情報がソースにどれだけ分散しているか(1 documentにすべての情報が書かれていたらいくら構造が複雑でもone shotのexampleで応答できることになる)の両方を考慮してQAの複雑度を決定しているように見える。
また、合成されたQAから低品質なものや複雑でないめのをフィルタリングするために下記5段階のverificationを実施:
- ツールアクセス無しでLLMの世界知識のみで回答可能なものは除外
- search engine apiで検索をしtop 50に正解が出現しないものはevidenceが十分にsupportされていないとし除外
- QA合成中のKGのevidenace(KGのtripletと、キャッシュされたpassage)をLLM verifierに与え、回答と矛盾する場合は除外
- strong agentにN回rolloutを生成させ、1度も正解できなかったものは除外。またN回のうち何回正解できたかをconfidenceとして保持
- 正解rolloutを生成する過程において、strong agentによって回答がuniqueでないと判断されたものは除外する(厳密ではなくとも、曖昧なタスクを除外する効果を期待する)
上記はtext modalityのQAの合成の場合で、multi modal (image)の場合は、reasoning graphのノードの一部を画像に置換し、画像の中身を解釈した上で次のノードを検索するといった依存関係に変更することでimageを理解しないと応答不可なQAを合成するようである。
verificationについても、上記text onlyのverificationに加え、VLMに基づいたimage onlyのverification(imageだけで回答できるものは除外、imageがQuestionと関係なさすぎる場合は除外等)したり、text+imageをstrong agentに与えN回ロールアウトを実施し正解率を算出し、正解率が高すぎるQAを除外するといった処理を実施しているようである。
[Paper Note] Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning, Zhaoyang Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #PostTraining #Diversity Issue Date: 2026-02-17 GPT Summary- LLMの進展により、自律エージェントが複雑なタスクを実行する能力が向上したが、信頼できる環境の不足がスケールを制約している。本研究では、Agent World Model(AWM)という合成的な環境生成パイプラインを提案し、1,000のシナリオを用意し、平均35ツールとの相互作用を可能にする。これにより、信頼性の高い状態遷移と高品質な観測が得られ、マルチターンのツール使用エージェントに対する強化学習で有効性を確認。合成環境のみでも良好な分布外一般化が得られることを示した。コードは公開されている。 Comment
元ポスト:
ポイント解説:
[Paper Note] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents, Yujiong Shen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Evaluation #Science #KeyPoint Notes #LongHorizon #ToolUse Issue Date: 2026-02-17 GPT Summary- 科学的推論には高度なツール統合が必要だが、現行ベンチマークはその能力を十分に評価していない。これを解決するために、SciAgentGymを導入し、1,780個の分野特異的ツールを提供。SciAgentBenchでは、エージェント能力を初歩から長期的なワークフローまで評価。先進モデルも複雑な科学ツール使用に取り組むが、成功率は対話のホライズン拡大で急落。SciForgeというデータ合成手法を提案し、ツールアクションを依存グラフとしてモデル化。これによって、SciAgent-8Bはより大規模なモデルを上回り、科学ツール使用能力の転移を示す。次世代の自律的科学エージェントの可能性を示唆。 Comment
元ポスト:
long horizonタスクでのtool useに関するベンチマークおよび環境の提供と、graphベースでツールの依存関係を定義し活用することで、環境上での実行によってgroundingされた高品質データを合成する手法SciForgeを提案。
ベンチマークでの評価によって、フロンティアモデルでもlong horizonになるとタスク成功率が低下することが明らかになり、性能の低いモデルは同じツールや類似したツールの繰り返しの呼び出しをするなどの挙動があることが明らかになった(他にも詳細な失敗モードの分析などがされているように見える)。
また、合成データによるSFTによって8B級のSLMでも大幅に性能が改善している模様。
[Paper Note] Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training, Yiwei Qin+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #SyntheticData #DataFiltering #Science #One-Line Notes Issue Date: 2026-02-12 GPT Summary- データの質がモデルのパフォーマンスに影響を与える中、データ・ダーヴィニズムという10段階の分類法を提唱。これに基づき、900BトークンのDarwin-Scienceコーパスを構築し、先進的なLLMを利用して生成的洗練(L4)と認知的補完(L5)を実現。事前トレーニングにより、3Bモデルで+2.12、7Bモデルで+2.95ポイントの性能向上を達成し、特定タスクでは更に高い改善を確認。共進化の原則に基づく開発を促進するため、データセットとモデルを公開。 Comment
元ポスト:
学習データを処理するためのフレームワークを10段階のレベル(ただのデータの獲得から、前処理、合成、世界のシミュレーションまで)で定義し、それぞれのレベルにおいてどのような処理が必要で、どのような価値を生むのかといった点が体系化されている。レベルが上がるにつれてデータの量は基本的に減少するが、データのinformation densityや構造の複雑さは高まっていく。
また、下図に示されているように実際にLevel0 -- Level5までの処理を実施したことでどのようなgainがあるかも考察されているようである。
[Paper Note] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations, Wei Liu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #NLP #ReinforcementLearning #AIAgents #Test-Time Scaling #PostTraining #LongHorizon #GPUKernel #Author Thread/Post Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment
元ポスト:
[Paper Note] Endless Terminals: Scaling RL Environments for Terminal Agents, Kanishk Gandhi+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #read-later #Diversity #Selected Papers/Blogs #One-Line Notes #Initial Impression Notes Issue Date: 2026-01-26 GPT Summary- 自己改善エージェントのボトルネックである環境を改善するため、無人アノテーションで端末利用タスクを生成する「Endless Terminals」パイプラインを提案。タスク記述の生成から可解性のフィルタリングまでの4ステージを経て、3255のタスクを作成。PPOを用いて訓練したモデルは、ホールドアウト開発セットで大幅な性能向上を示し、Llama-3.2-3Bは4.0%から18.2%、Qwen2.5-7Bは10.7%から53.3%に改善。人間キュレーションのベンチマークでも改善し、シンプルな強化学習がスケールする環境で成功することを示す。 Comment
元ポスト:
taskが解けるものか否かをverifyする追加のモデルが必要な点は注意とのこと。
(論文中ではo3が用いられている)
著者ポスト:
RLにおけるターミナル上で実行可能な多様なタスクと、実際に動作可能なコンテナ、テストの生成をスケールさせることで標準的なPPOで性能が向上し、人間が収集した既存ベンチマーク(Terminal Bench 2.0)にも汎化することを示した研究。つまり、RLのタスクと環境をスケールさせれば標準的なRLアルゴリズムでも性能が向上するというメッセージがある。
本研究の他研究との位置付けがぱっと脳内で整理できなかったので、関連研究の部分を読むと、
- AgentのScaffoldの観点では、bashが実行可能なOpenHandsに近く、シェルコマンドを実行し、実行に至るまでのすべてのヒストリと出力が利用可能。
- SFTのための高品質なデータを合成するる研究が最近は多いが、SFTはRLのためのWarmUpに相当するため、本研究とそれらの研究は補完的な位置付けにある。
- ベンチマークやインタラクティブな研究の観点では、SWEBenchやTerminal Bench 2.0のように、人間が収集したベンチマークが存在し、マルチターンでアクションを通じてインタラクションしながら次のアクションを決めていく。本研究もシェル上で状態を観測しながら次のアクションを決めていくようなマルチターンの枠組みに相当する。
- verifiableな環境を合成する研究も行われている。たとえばSWEGymは2438のpythonコードのタスクと検証可能なテストを提供するが、既存のGithub Issueに依存しており、本研究のようにボトムアップに手続的に生成されるものではない。シングルターンではself-playにより困難な問題を生成する研究があるがマルチターンではない。Open Thought Agentという研究がSFT, RLのためのターミナルを用いた環境を合成する点でもっとも本研究と近いが、人間が生成したクエリやコマンドに基づいており、かつ既存のTerminal Bench 2.0といった人間によって収集されたベンチマークでのgainは得られていない。本研究では、完全に自動化されており、任意のサイズにスケールしPPOのような標準的なRLでも既存ベンチマークに転移する点が異なる。
という整理のようである。位置付けは理解できたが、本研究が既存のベンチマークにも転移するのはなぜなのだろうか?という点がまだ理解できていない。
所見:
[Paper Note] REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards, Zafir Stojanovski+, NeurIPS'25 Spotlight, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Library #ReinforcementLearning #Reasoning #NeurIPS #PostTraining #RLVR #KeyPoint Notes Issue Date: 2026-02-17 GPT Summary- Reasoning Gymは、強化学習のための推論環境ライブラリで、100以上のデータ生成器と検証器を提供する。代数、算術、認知、幾何学、論理など多様な領域を網羅し、難易度調整可能な訓練データを生成する革新性がある。これにより、固定データセットではなく継続的な評価が実現。実験結果は、推論モデル評価と強化学習でのRGの有効性を明らかにしている。 Comment
元ポスト:
代数、logic, ゲームなどの多様な分野に関するRLVR用の100種類以上のreasoning taskを、難易度調整可能な形で大量(というより無限)に生成可能な枠組みな模様。
データは手続的に生成される。つまりタスクごとにアルゴリズムが決まっていて、アルゴリスに従って生成される。全てのタスクは人間の介入なしで自動的にverification可能。タスクの解空間は非常に巨大で、overfittingやreward hackingを軽減し、configuableなパラメータによってタスクの難易度を制御可能。ドメインは5種類で数学、アルゴリズム、logical reasoning、パターン認識、制約充足(ゲームやパズル、プランニング)。
[Paper Note] Procedural Environment Generation for Tool-Use Agents, Michael Sullivan+, EMNLP'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #EMNLP #PostTraining #ToolUse Issue Date: 2026-02-17 GPT Summary- ツール利用エージェントの研究を促進する中、オンラインRL訓練におけるツール利用データのキュレーションが課題となっている。これに対処するため、対話型かつ構成的なツール利用データを手続き的に生成するRandomWorldを提案。これを用いたモデルは、さまざまなツール利用ベンチマークを向上させ、NESTFULデータセットで新たなSoTAを樹立。さらに、RandomWorld由来のデータ量が下流性能向上に寄与することを実証し、合成データの利用が改善の可能性を拓くことを示した。 Comment
元ポスト:
[Paper Note] SWE-smith: Scaling Data for Software Engineering Agents, John Yang+, NeurIPS'25 Spotlight, 2025.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #NeurIPS #SoftwareEngineering #PostTraining #One-Line Notes #Scalability Issue Date: 2026-02-17 GPT Summary- ソフトウェア工学向け言語モデル(LM)のトレーニングデータ収集は依然として課題であり、データセットは小さく、編纂に数百時間かかる。これを解決するために、SWE-smithという新しいデータ生成パイプラインを提案。任意のPythonコードベースを基にタスク例を自動合成し、約5万件のデータセットを作成。このデータで訓練したSWE-agent-LM-32Bが、最先端の解決率を達成。SWE-smithをオープンソース化し、参入障壁を下げることを目指す。 Comment
元ポスト:
データの構築方法はあまりしっかり読めていないが、モデルの学習方法がabstからよくわからなかったのでざっくり読むと、SWE-Smithのinstanceに対してstrong model(実験ではClaude)でtrajectoryを生成しベースモデルをSFTするようである。
[Paper Note] R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents, Naman Jain+, COLM'25, 2025.04
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Coding #Test-Time Scaling #SoftwareEngineering #COLM #PostTraining #Verification #KeyPoint Notes #Scalability #Hybrid Issue Date: 2026-02-17 GPT Summary- AgentGymは、GitHubのIssue解決を目的としたSWEタスクのための手続き的にキュレーションされた大規模な実行可能ジム環境で、8,700以上のタスクから構成されています。主な貢献は、合成データキュレーションの手法SYNGENによるスケーラブルな環境構築と、実行ベースおよび実行不要の検証機を用いたハイブリッド・テスト時スケーリングです。これにより、SWE-Bench Verifiedベンチマークで51%のパフォーマンスを達成し、従来のプロプライエタリモデルと競合する能力を示しました。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=7evvwwdo3z#discussion
従来のSWE関連のデータセットでは、人間が記述したissueやtestが必要でscalabilityに課題があったが、すでに存在するテストコードからFail→Passとなるコミットを同定し、コミットの情報を逆翻訳することによってProblem statementを生成する。従来手法ではIssueの記述をそのまま使っていたが、スケーラブルではないので異なるアプローチが求められる。このため、本研究では以下二つの点を考慮し
- コミットのコード編集履歴のみではgenericな問題が生成されてしまう
- 人間が作成するIssueにはしばしば失敗するテストと実行トレースが付随することに着目し
Failedしたテストのテストコードと実行トレースとpromptに含めてよりspecificなProblem statementを生成するアプローチをとる。
また、SWEエージェントが出力するパッチの中からより良いパッチをランキング付けするためのtest-time scaling手法も提案している。具体的には、task description D, agent trajectory T, Patch Pが与えられた時にPatch PのスコアSを得る問題として定式化できる。このスコアを得る方法として、execution basedなverifierとexecution freeなverifierの2種類を分析し、最終的に両者のハイブリッドによってより良いtest-time scalingのgainが得られることを示している。
具体的には、前者はtest codeを自動生成するエージェントを学習し、taskに必要な機能に関するテストと、taskを解くための実装によって既存の機能が壊れていないかに関するテスト(回帰テスト)の2種類によって構成され、回帰テストのスコアが最も良いパッチに対して、テストがどれだけパスしたかによってスコアリングをする。
後者については、D, T, Pが与えられた時に、各Trajectory tが正しいものがどうかを2値分類するverifierを学習し、全体のtrajectoryの数に対するyesの割合によってスコアを定義する。
これらのverifierを分析した結果、双方共にtest-time scalingに対してgainを得られることがわかったが、前者はパッチの正しさに対して直接的なシグナルを得られるが、パッチそのものの質を識別する能力が低く、後者はパッチの質の識別力は高いが、エージェントの思考によるバイアスが課題として存在することがわかった。これより、両者は補完的な関係にあると考えられ、両者をハイブリッドすることによって、より良好なtest-time scalingによるgainを得ることが可能なことが示されている。興味深いのは、editing agent (i.e., パッチを生成するエージェント)のロールアウト数をスケープすることでも性能が改善するが、testing agentのロールアウト数をスケールすることで、editing agentのロールアウトを単にスケールするよりもより効率的なスケーリング性能を得られることである。
[Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, NeurIPS'25, 2025.05
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #NeurIPS #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment
pj page: https://swe-rebench.com
元ポスト:
コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能
[Paper Note] Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #ICML #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-04-02 GPT Summary- SWE-Gymを提案し、2,438件の実世界のPythonタスクを含む環境を構築。言語モデルに基づくSWEエージェントを訓練し、SWE-Benchで最大19%の解決率向上を達成。微調整されたエージェントは新たな最先端の性能を示し、SWE-Gymやモデル、エージェントの軌跡を公開。 Comment
SWE-Benchとは完全に独立したより広範な技術スタックに関連するタスクに基づくSWEベンチマーク
- [Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24
SWE-Benchと比べて実行可能な環境と単体テストが提供されており、単なるベンチマークではなくエージェントを訓練できる環境が提供されている点が大きく異なるように感じる。
[Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Tianbao Xie+, arXiv'24, 2024.04
Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #Evaluation #MultiModal #VisionLanguageModel Issue Date: 2025-08-29 GPT Summary- 自律エージェントは、複雑なコンピュータ作業を最小限の人間介入で達成し、生産性を向上させる可能性を持つ。しかし、既存のベンチマークは対話的環境の欠如や特定のドメインに限定され、スケーラビリティを制限している。これに対処するため、OSWorldという実機コンピュータ環境を提案し、様々なOSにまたがるマルチモーダルエージェント向けの統一環境を提供。369のコンピュータタスクを現実世界の利用ケースに基づいて評価するためのベンチマークを作成。評価の結果、最先端のLLM/VLMベースのエージェントは人間の72.36%に対しわずか12.24%の成功しか得られず、GUIのグラウンディングと運用知識の不足が主な要因であることが明らかになった。OSWorldは汎用エージェントの開発に向けた有益なインサイトを提供する。 Comment
openreview: https://openreview.net/forum?id=tN61DTr4Ed#discussion
マルチモーダル AI Agentを評価するための実コンピュータでの仮想環境が提供されており、Ubuntu, Windows, macOS等でのキーボード、マウスコントロールを受け付ける。396の実際のユーザが直面するシナリオが定義されており、タスクごとにinitial stateが定義され、実際にタスクを実行することをベースにした評価を実行可能。
タスクとタスクの実行結果を評価するためのスクリプトの例が以下で、たとえばAmazonのcookieを全て削除する依頼や、エクセルの操作を実施するようなタスクなど、多様なタスクが用意されている。
Agentが実施可能なアクションの一部は下記で、マウス操作、キーボード入力を通じて実行可能なアクションが定義されている。
Holo3: Breaking the Computer Use Frontier, H Company, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #ComputerUse #read-later #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-04-02 Comment
元ポスト:
HF: https://huggingface.co/Hcompany/Holo3-35B-A3B
関連:
- Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11
Qwen3.5をファインチューニングすることで実現。以前のシリーズもQwenベースだったが、新たなQwenのリリースに伴いより強力なベースモデルを得て、かつシナリオをベースにして自動でwebsiteを構築しverifiableが可能な独自のEnvironmentを保持しており、多様な合成データの活用とRLを実現することで、性能が向上していると思われる。
Where Machines Get Reward, OpenReward, 2026.03
Paper/Blog Link My Issue
#Article #ReinforcementLearning #read-later Issue Date: 2026-03-25 Comment
元ポスト:
Qwen3.5: Towards Native Multimodal Agents, Qwen Team, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #ReinforcementLearning #MultiModal #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Scalability Issue Date: 2026-02-17 Comment
元ポスト:
最新のQwenがリリース・・・!!
- Vision+TextのUMMを採用。
- real-world agentsのために訓練
- hybrid linear attention + sparse MoE + 環境スケーリングに基づくlarge scale RLを実施
- decodingのスループットがQwen3-Maxと比較して8.6--19.0倍
- 201の言語と方言をサポート
- 397B-A17B
- Gated DeltaNet
- Gated Attention
- context length: 262k
- Multi token prediction
- 言語系タスクではGPT5.2と比較して少し劣る程度、agenticなベンチマークでは大きく上回るものも存在(ただし、Claude 4.5 Opusには届いていないベンチマークが多いように見える)
- Vision系タスクでは全体的にGPT5.2, Opus 4.5よりも優秀に見え、Gemini 3 Proと同等か少し劣る程度に見える。
世はlinear attention時代
所見:
INT4モデル:
Introducing Lab: The Full-Stack Platform for Training your Own Models, Prime Intellect, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #LanguageModel #Infrastructure #ReinforcementLearning #AIAgents #Blog #ScientificDiscovery #PostTraining #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2026-02-11 Comment
元ポスト:
事後学習、特にAgenticな研究の民主化のためのプラットフォームの提供
所見:
利用例 (Environment Hub):
[Paper Note] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis, Li+, 2026.02
Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #Search #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #OpenSource #Selected Papers/Blogs #Reproducibility #DeepResearch #One-Line Notes #LongHorizon #Initial Impression Notes Issue Date: 2026-02-10 Comment
元ポスト:
APIに依存せずオフラインコーパスと検索を利用し、高品質なDeepResearchのlong horizonなtrajectoryを合成可能な環境を構築。合成したtrajectoryでNemotron-3-nano-30B-A3B-BaseをSFTすることで、Kimi-K2, GLM-4.6などの10倍以上大きいサイズのモデルよりもBrowseCompで高い性能を獲得。同サイズのTongyiDeepResearchもoutperform。
Deterministicなプロセスで、オフラインコーパスからデータを合成し外部APIに依存しないため完全に再現性があり、かつAPIのコストやrate limitにも引っかからないという利点がある。検索エンジン、コード、データ、合成データ、モデル、全てを公開。
完全に再現性のある研究は素晴らしい。
