Asynchronousに関する論文・技術記事メモの一覧

Asynchronous

[Paper Note] AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs, Haizhong Zheng+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Tools #NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- AstraFlowは、強化学習（RL）システムのデータフロー管理を自律的なコンポーネントに分離し、マルチポリシー協調訓練を効率的にサポートする新しいアプローチを提供する。これにより、従来のトレーナー中心の制御から脱却し、異種かつ跨地域の計算リソースを効果的に活用する。AstraFlowは、数学やコーディング、検索のワークロードで、既存RLシステムに匹敵する精度を保ちつつトレーニング時間を2.7倍短縮したことが示された。 Comment

元ポスト:

Loading…

github: https://github.com/Infini-AI-Lab/astraflow

[Paper Note] DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training, Tianhao Hu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2026-05-01 GPT Summary- DORA（Dynamic ORchestration for Asynchronous Rollout）は、強化学習における非同期トレーニングの制約を克服するための新しいパラダイムを提案。これにより、複数のポリシー版本を同時に維持しながら、高効率で収束性を保つ。DORAは従来のシステムより2〜3倍のスループットを達成し、大規模アプリケーションでは同期トレーニングに比べ2〜4倍の加速を実現。LongCat-Flash-Thinkingモデルは、複雑な推論ベンチマークで競争力のある性能を示した。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] AIRA_2: Overcoming Bottlenecks in AI Research Agents, Karen Hambardzumyan+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #AutoML #LongHorizon #Initial Impression Notes Issue Date: 2026-03-30 GPT Summary- 既存のAI研究エージェントの課題に対処するため、AIRA$_2$を提案。非同期マルチGPUワーカープールによりスループットを向上し、信頼性の高い評価信号を提供するHidden Consistent Evaluationプロトコルを導入。また、動的に行動を変更できるReActエージェントを用いる。MLE-bench-30でAIRA$_2$はパーセンタイル順位71.8%を達成し、過去最高を更新。各要素の必要性を示し、評価ノイズによる「過剰適合」の誤解を明らかに。 Comment

元ポスト:

Loading…

AutoMLベンチマーク（MLE-Bench-30）においてSoTAな手法らしい。AutoMLの現状を概観するのに良さそう。
- MLE-Bench, OpenAI, 2024.10

72h実行して、36.7%程度のコンペティションでGold medalを獲得している。よくよく表を見ると、FM-Agent 2.0の方が24hで全体的に高いメダル獲得率のように見えたのだが、そもそもMARS+, MARS, FM-Agent 2.0, そしてMLEvolveはcon-current workとのこと。2024年10月にMLE-Benchが発表され、[Paper Note] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, Jun Shern Chan+, ICLR'25, 2024.10 を見るとo1-previewでgold medalは10%程度だったが、そこから約1年半でgold medalの比率は+26%程度まで向上しているということになる。
- [Paper Note] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, Jun Shern Chan+, ICLR'25, 2024.10

ベンチマークが公開されたら早々にサチりそうな気がしていたが、個人的に思っていたよりもスコアの伸びが遅いという感想。

[Paper Note] Effective Strategies for Asynchronous Software Engineering Agents, Jiayi Geng+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #Coding #Architecture #SoftwareEngineering #LongHorizon Issue Date: 2026-03-25 GPT Summary- AIエージェントは孤立したSWEタスクでは高い能力を示すが、依存するサブタスクを含む長期的なタスクには課題が残る。非同期のマルチエージェント協調が期待されるが、同時編集や依存関係の同期、進捗の統合には困難が伴う。これに対処するため、CAIDという新たな協調パラダイムを導入。これにより中央管理者を介したタスク計画と、分離された作業スペースでの同時実行が実現され、進捗の統合が可能になる。実験的にCAIDは、PaperBenchで26.7%、Commit0で14.3%の精度向上を示し、マルチエージェント協調の調整機構としてブランチとマージを明らかにした。 Comment

元ポスト:

Loading…

[Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #OpenWeight #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Initial Impression Notes #Author Thread-Post Issue Date: 2025-11-27 GPT Summary- INTELLECT-3は、1060億パラメータのMixture-of-Expertsモデルであり、強化学習を用いて高性能を達成。数学・コード・科学・推論のベンチマークで最先端の結果を示し、全インフラストラクチャがオープンソースとして公開される。prime-rlを利用した大規模RL環境は、多様なGPUに対応し、高効率な訓練を実現。 Comment

HF: https://huggingface.co/PrimeIntellect/INTELLECT-3

元ポスト:

Loading…

著者ポスト:

Loading…

完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい

in-flight weight updates が利用されている
- PipelineRL, Piche+, ServiceNow, 2025.04

[Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-07 GPT Summary- 強化学習（RL）を用いて大規模言語モデル（LLMs）の推論能力を向上させるための新しいアプローチ、PipelineRLを提案。PipelineRLは非同期データ生成とモデル更新を同時に行い、トレーニングデータの新鮮さを保ちながら、GPUの利用率を最大化。実験では、従来のRL手法に比べて約2倍の学習速度を達成。PipelineRLのオープンソース実装も公開。 Comment

元ポスト:

Loading…

long trajectoryをロールアウトする際にモデルの非同期な更新が生じ、rollont中のtrajectoryに複数のパラメータでのモデルから生成されたトークンが混在する場合がある。このような場合に、複数の数百B級のパラメータをメモリ上に保持しておくことはできないので、トークンを推論した際のlogprobをとっておき、そのlogprobを用いて重要度サンプリングを行う。これによって、oldモデルのパラメータを破棄することができ、トークンが生成された時のlogprobをそのまま活用できるため、より実際のlogprobを用いた重要度サンプリングになっている、みたいなテクニックがあるらしい。

Loading…

[Paper Note] Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony, Han Lu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #RLVR Issue Date: 2025-10-14 GPT Summary- 非同期RL後処理をサポートする「ROLL Flash」を提案。細粒度の並列性とロールアウト・トレインのデカップリングに基づき、効率的なトレーニングアーキテクチャを実現。ROLL Flashはリソース利用効率とスケーラビリティを大幅に改善し、RLVRタスクで最大2.24倍、エージェントタスクで最大2.72倍のスピードアップを達成。非同期トレーニングが同期トレーニングと同等のパフォーマンスを示すことを確認。 Comment

元ポスト:

Loading…

RLのロールアウト中のGPUのアイドルタイムを削減します系の話も最近結構見るような
たとえば

- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10

[Paper Note] VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use, Dongfu Jiang+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#EfficiencyImprovement #Tools #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2025-09-03 GPT Summary- VerlToolは、強化学習におけるツール統合の課題を解決するための統一的かつモジュラーなフレームワークを提供する。主な貢献は、互換性の確保、標準化されたAPIによるツール管理、非同期実行による速度向上、競争力のあるパフォーマンス評価である。これにより、マルチターンのインタラクションを形式化し、様々なタスクにおいて専門的なシステムと同等の結果を達成する。開発のオーバーヘッドを削減し、スケーラブルな基盤を提供する。コードはオープンソースで公開されている。 Comment

github: https://github.com/TIGER-AI-Lab/verl-tool

元ポスト:

Loading…

[Paper Note] Mobile-Agent-v3: Foundamental Agents for GUI Automation, Jiabo Ye+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SmallModel #ComputerUse #On-Policy #GUI Issue Date: 2025-08-29 GPT Summary- 本論文では、GUI-OwlというGUIエージェントモデルを提案し、デスクトップおよびモバイル環境での最先端性能を達成したことを報告しています。特に、Mobile-Agent-v3フレームワークを導入し、性能を向上させました。GUI-Owlは、クラウドベースの仮想環境を利用した自己進化するデータ生成、エンドツーエンドの意思決定を支援する多様な機能、スケーラブルな強化学習フレームワークを特徴としています。これらの成果は、オープンソースとして公開されています。 Comment

github: https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25
- [Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Tianbao Xie+, arXiv'24, 2024.04

Trajectory-aware Relative Policy Optimization
(TRPO)

[Paper Note] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL, Jiaxuan Gao+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Search #LanguageModel #ReinforcementLearning #AIAgents #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #Author Thread-Post Issue Date: 2025-08-14 GPT Summary- ASearcherは、LLMベースの検索エージェントの大規模なRLトレーニングを実現するオープンソースプロジェクトであり、高効率な非同期RLトレーニングと自律的に合成された高品質なQ&Aデータセットを用いて、検索能力を向上させる。提案されたエージェントは、xBenchで46.7%、GAIAで20.8%の改善を達成し、長期的な検索能力を示した。モデルとデータはオープンソースで提供される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説ポスト:

Loading…

既存のモデルは <= 10 turnsのデータで学習されており、大規模で高品質なQAデータが不足している問題があったが、シードQAに基づいてQAを合成する手法によって1.4万シードQAから134kの高品質なQAを合成した（うち25.6kはツール利用が必要）。具体的には、シードのQAを合成しエージェントがQAの複雑度をiterationをしながら向上させていく手法を提案。事実情報は常にverificationをされ、合成プロセスのiterationの中で保持され続ける。個々のiterationにおいて、現在のQAと事実情報に基づいて、エージェントは
- Injection: 事実情報を新たに注入しQAをよりリッチにすることで複雑度を上げる
- Fuzz: QA中の一部の詳細な情報をぼかすことで、不確実性のレベルを向上させる。
の2種類の操作を実施する。その上で、QAに対してQuality verificationを実施する:
- Basic Quality: LLMでqualityを評価する
- Difficulty Measurement: LRMによって、複数の回答候補を生成する
- Answer Uniqueness: Difficulty Measurementで生成された複数の解答情報に基づいて、mismatched answersがvalid answerとなるか否かを検証し、正解が単一であることを担保する

また、複雑なタスク、特にtool callsが非常に多いタスクについては、多くのターン数（long trajectories）が必要となるが、既存のバッチに基づいた学習手法ではlong trajectoriesのロールアウトをしている間、他のサンプルの学習がブロックされてしまい学習効率が非常に悪いので、バッチ内のtrajectoryのロールアウトとモデルの更新を分離（ロールアウトのリクエストが別サーバに送信されサーバ上のInference Engineで非同期に実行され、モデルをアップデートする側は十分なtrajectoryがバッチ内で揃ったらパラメータを更新する、みたいな挙動？）することでIdleタイムを無くすような手法を提案した模様。