ComputerUse


Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #Evaluation #MultiModal #read-later #Selected Papers/Blogs #VisionLanguageModel #Game #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-19 GPT Summary- MLLMエージェントの課題を解決するため、テストベッドとしてGameWorldを導入。34のゲームと170のタスクを含み、性能評価を標準化。結果はエージェントが人間の能力には及ばないことを示唆。ゲームエージェントの相互作用や記憶、アクション妥当性に関する研究が今後の課題を明らかに。再現性のある評価フレームワークとして、GameWorldはマルチモーダルゲームエージェント研究の進展を促進。 Comment

元ポスト:

Loading…

Geminiがポケモンで評価されていたのと似ている。個人的にこの方向性の評価は非常に興味深く、理由としては
- ゲームをプレイしたデータはモデルの中の知識(学習データ)として埋め込まれずらく、コンタミネーションが生じづらい
- 知識がないのであれば、プレイして、ゲームという名の仮想世界のルールを理解してゲームをクリアせねばならず、これには高度な認知能力、プランニング、Reflectionなどの能力が求められる
- これらの能力が発揮されるには学習データのパターンから学習した手続きの適用よりも、より抽象的な理解が求められ、モデルがどれだけ人間の認知に近い能力を獲得しているかを測定できるのでは

という感想を持っているからである。

pj page: https://gameworld-project.github.io/




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #Verification #Rubric-based Issue Date: 2026-04-11 GPT Summary- CUA軌跡の検証は評価信号の信頼性に不可欠である。本研究では、ノイズを減らしたルーブリックの構築、プロセスと成果報酬の分離、失敗の制御、文脈管理スキームの導入を行い、Universal Verifierを設計。新しいCUA軌跡集合CUAVerifierBenchでの検証により、人間の合意に匹敵する精度を示し、偽陽性率をほぼゼロに低減。自動研究エージェントは専門家の品質を70%達成するが、Universal Verifierの戦略発見には失敗。システムとデータセットはオープンソースとして公開。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #MultiModal #OpenWeight #OpenSource #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #GUI Issue Date: 2026-03-24 GPT Summary- MolmoWebは、ウェブエージェントをオープンな環境で構築するために、(1) 大規模な混合データセットMolmoWebMixと、(2) 完全オープンなマルチモーダルエージェントのMolmoWebを提案。MolmoWebMixは、10万超の合成タスクと3万件以上の人間デモを統合し、エージェントは視覚言語アクションポリシーを用いて次のブラウザ操作を予測。MolmoWebエージェントは同規模の他のモデルを上回る性能を示し、再現性とオープンな研究を促進するために関連リソースを公開。 Comment

元ポスト:

Loading…

github: https://github.com/allenai/MolmoWeb

学習、評価ハーネス、アノテーションツール、合成データパイプライン、デモのclient sideのコードがリリース

Molmo2をベースにしたオープンソースのBrowser Useエージェント。スクリーンショットを通じて次のアクション(クリック、文字入力、スクロール)を予測し実行する。

image

従来のBrowser Useエージェントの多くは非公開データを用いている中、MolmoWebMixと呼ばれる大規模なデータセットを公開。合成データ(タスクに成功したsingleエージェントのtrajectory, タスクをサブタスクに分解して実行するタイプのmulti-agent pipeline, 数百のwebsiteのリンク構造を体系的に探索して構築されたナビゲーションの経路等)と人間に寄る高品質なアノテーション(36k, 1100タスク, 623k件の個別のサブタスクのデモンストレーションで、過去最大規模)の2種類で構成されるとのこと。
また、BroserのGUIを認識するための学習データも含まれる。これはGUIのgrounding taskと、webページの内容を読み取りながら推論を実施するスクリーンショットがgivenなQAタスクのデータとsて構成され、400程度のサイトから収集した、2.2MのQAペアによって編成される。

4種類のベンチマークで評価した結果、プロプライエタリモデルには一部及ばないものもあるが、同等規模なOpenWeightモデルをoutperform。また、WebVoyager, Online-Mind2Webデータでみると、Pass@4のようなtest-time scaling手法を用いると、プロプライエタリも出るを上回る。
ただ注意点としては、比較しているOpenWeightモデルが少し古いように見えるが、何か理由があるのだろうか。
Holoであれば、既にHolo3がリリースされており
- Holo3: Breaking the Computer Use Frontier, H Company, 2026.03

GLMであれば、GLM-4.6Vが存在する。
- GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilies, Zhipu AI, 2025.09

(UI-TARS-2 [Paper Note] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning, Haoming Wang+, arXiv'25 はおそらくプロプライエタリなので対象外。あと使えるのかも不明。デモは公開されていた気がするが。)

image

image

いずれにせよHoloやUI-TARSなどはデータが公開されていなかったと思うので、全てを公開することによるcontributionは非常に大きいと思われる。

ベンチマーク関連:
- [Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01
- Online-Mind2Web
- [Paper Note] An Illusion of Progress? Assessing the Current State of Web Agents, Tianci Xue+, COLM'25, 2025.04
- [Paper Note] Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, arXiv'23, 2023.06 とは異なるため注意
- [Paper Note] DeepShop: A Benchmark for Deep Research Shopping Agents, Yougang Lyu+, arXiv'25, 2025.06
- WebTailBench
- [Paper Note] Fara-7B: An Efficient Agentic Model for Computer Use, Ahmed Awadallah+, arXiv'25, 2025.11




Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #OpenWeight #GUI Issue Date: 2026-02-28 GPT Summary- GUI-Owl-1.5は、指示型および思考型のGUIエージェントモデルで、幅広いプラットフォームをサポート。複数のサイズで提供され、20のGUIベンチマークで最先端の成果を達成。重要な革新には、ハイブリッドデータパイプライン、推論能力の統一的強化、マルチプラットフォーム環境の新アルゴリズムMRPOが含まれる。モデルはオープンソースで、オンラインデモが提供されている。 Comment

pj page: https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3.5




Paper/Blog Link My Issue
#AIAgents #ContinualLearning Issue Date: 2026-02-21 GPT Summary- ACuRLは、ゼロ人間データでエージェントを特定環境に適応させる自律カリキュラム強化学習フレームワーク。エージェントは初期体験を基にタスクを生成し、反復的な訓練を行う。CUAJudgeによる自動評価器が人間の判断と93%一致し、効果的な環境内外での学習を実現し、4-22%の性能向上を達成。少ない更新で堅牢な適応が可能であることが示された。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Dataset #AIAgents #Evaluation #Coding #ICLR #SoftwareEngineering #VisionLanguageModel #GUI Issue Date: 2026-02-05 GPT Summary- CUA(コンピュータ利用エージェント)は一般的なタスクを実行する可能性があるが、ソフトウェアエンジニアリングのような専門的な作業の自動化能力は不明である。本研究では、「Programming with Pixels」(PwP)を導入し、エージェントが視覚的にIDEを操作して多様なソフトウェアエンジニアリングタスクを実行する環境を提供する。また、15のソフトウェアエンジニアリングタスクに対するベンチマーク「PwP-Bench」を設立し、CUAsの性能を評価した。結果、純粋な視覚的インタラクションでは専門エージェントに劣るが、APIへの直接アクセスを与えることで性能が向上し、専門性に達することが多かった。CUAsは視覚的基盤の限界と環境の効果的な活用に課題があるが、PwPは洗練されたタスクに対する評価の新たな基準を提供する。 Comment

pj page: https://github.com/ProgrammingwithPixels/PwP

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #ICLR #PostTraining #UI Issue Date: 2026-02-01 GPT Summary- 専門家の実演から構築したデスクトップグラウンディングデータセット「GroundCUA」を提案。87のアプリをカバーし、56,000枚のスクリーンショットと356万件以上の注釈を含む。これに基づき、指示をUI要素にマッピングする「GroundNext」モデル群を開発。教師ありファインチューニングにより最先端の結果を達成し、強化学習によるポストトレーニングでさらに性能向上。高品質なデータセットがコンピューターエージェントの進展に貢献することを示唆。 Comment

pj page: https://groundcua.github.io/

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #OpenWeight #SelfImprovement #PostTraining #read-later #VisionLanguageModel #Scalability #Initial Impression Notes Issue Date: 2026-01-23 GPT Summary- EvoCUAは、ネイティブコンピュータ使用エージェントの新モデルで、静的模倣に頼らずデータ生成とポリシー最適化を統合。自律的にタスクを生成し、検証可能な合成エンジンでデータ不足を解消。スケーラブルなインフラにより多様な経験を収集し、反復進化学習でポリシーを動的に調整。OSWorldベンチマークで56.7%の成功率を達成し、従来のモデルを大幅に超えた。このアプローチは、さまざまな基盤モデルでの性能向上を実証し、ネイティブエージェントの機能強化に寄与することを示唆している。 Comment

HF: https://huggingface.co/meituan/EvoCUA-32B-20260105

元ポスト:

Loading…

合成データ生成(タスク合成からVerifierの定義まで?)と学習のループを回すことでデータのスケーラビリティを向上し性能向上(これまでは事前に静的に合成されたtrajectoryでの学習が主流)。Rejection Samplingをして成功したtrajectoryでSFTしつつ、工夫されたDPOが用いられている模様。あとで読みたい。




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #VisionLanguageModel Issue Date: 2026-04-10 GPT Summary- DeepShopは、複雑なオンラインショッピング環境でのウェブエージェント評価のために設計された新たなベンチマークである。実ユーザークエリを基に多様なクエリを生成し、その複雑さを製品属性や検索フィルターを考慮してeasy、medium、hardの3レベルに分類。エージェントの性能は詳細な評価基準に基づき、RAG法との比較やフィルターとソート設定における課題を明らかにすることで、ショッピングエージェントの改善に寄与する。

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #Evaluation #COLM #VisionLanguageModel #GUI Issue Date: 2026-04-10 GPT Summary- ウェブエージェントの能力を包括的に評価し、既存の楽観的な見解との乖離を明らかに。Online-Mind2Webという新たなベンチマークを用い、300の現実的なタスクで評価を実施。新しい自動評価手法を開発し、人間の判断と85%の一致を達成。ウェブエージェントの強みと限界を示し、今後の研究の方向性を提案。 Comment

openreview: https://openreview.net/forum?id=6jZi4HSs6o




Paper/Blog Link My Issue
#ComputerVision #NLP #Infrastructure #AIAgents #SoftwareEngineering #read-later #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-04-07 GPT Summary- コンピュータ利用エージェントの訓練には、リソース効率の良いスケーラブルなOS環境が必要であり、OSGymを提案。主な特徴は、(1) 故障の分散型管理でシステム信頼性を向上、(2) CPUボトルネック対策によるオーバーヘッド軽減、(3) コピーオンライトによるディスク利用の大幅削減、(4) 堅牢なフォールトリカバリの実装。OSGymは1000以上のOSレプリカを管理し、コストを90%削減しつつ、高速なマルチターン軌道生成を実現。これにより、汎用的なエージェント研究の基盤を提供。 Comment

元ポスト:

Loading…

ソースやcodeをオープンにはしないのだろうか。と思ったら、リプにoss releaseの準備をしていると言及があった。




Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #VisionLanguageModel #One-Line Notes #Grounding #GUI Issue Date: 2026-03-20 GPT Summary- MLLMの進展は一般的なタスクのGUIエージェントに貢献しているが、専門分野への適用は未検討。ScreenSpot-Proでは、高解像度の専門設定でMLLMのグラウンディング能力を評価する新ベンチマークを提示。複数の業界とアプリケーションに対してテストを行い、既存モデルの性能は低く、最良のモデルでも18.9%に過ぎない。探索域の戦略的縮小により精度向上を示し、ScreenSeekeRを提案。階層的検索を用いることで、訓練不要で48.1%の性能を達成。専門アプリ向けGUIエージェント開発の進展を期待。 Comment

元ポスト:

Loading…

高解像度な画像を用いた多様なドメインでのVLMのGUI grounding性能を測るベンチマークとリーダーボードのようでえる

現在のトップはHolo2のようである
- New Holo2 model takes the lead in UI Localization, H Company, 2026.02
- Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11




Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #Reasoning #SmallModel #OpenWeight #PostTraining #VisionLanguageModel #One-Line Notes #GUI #EdgeDevices Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment

pj page: https://github.com/HKUDS/OpenPhone

3Bで10B級の性能を誇る低latencyのedge device向けSVLM

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #SyntheticData #CVPR #read-later #Selected Papers/Blogs #VisionLanguageModel #GUI #Dragging #Author Thread-Post Issue Date: 2026-01-16 GPT Summary- ShowUI-$\pi$は、GUIエージェントにおける連続的な操作を可能にするフローベースの生成モデルです。これにより、離散的なクリックと連続的なドラッグを統合し、滑らかで安定したトラジェクトリーを実現します。2万のドラッグトラジェクトリーを用いたScreenDragプロトコルによる評価で、既存のGUIエージェントと比較して優れた性能を発揮しました。この研究は、人間のような器用な自動化の実現を促進します。 Comment

pj page: https://showlab.github.io/showui-pi/

元ポスト:

Loading…

大規模なドラッグに関するデータセットを収集しており、エージェントのGUIの操作の今後の進展に大きく寄与しインパクトが大きいと考えられるため、重要論文に見える。

著者ポイント解説:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #Evaluation #Coding #LLM-as-a-Judge #VisionLanguageModel #One-Line Notes #UI Issue Date: 2025-11-26 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

CUA自身にCUAにとって理解しやすいUIに関するJudgeをさせてフィードバックさせ(CUA-as-Judpe)、Coder(コード生成)を通じてUIを改善できるか?というタスクとベンチマークな模様




Paper/Blog Link My Issue
#AIAgents #Blog #SmallModel #OpenWeight #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-11-25 GPT Summary- CUAの発展は高品質な相互作用データの欠如に制約されてきた。これに対処するため、FaraGenという多段階ウェブタスク用のデータ生成システムを提案。多様なタスクを生成し、成功した軌跡を検証しつつ高い効率を発揮。FaraGenを用いて、小型CUAモデルFara-7Bを訓練し、ウェブタスクにおいて優れた性能を発揮。Fara-7Bは他のモデルを上回り、競争力のある結果を示す。また、モデルとデータをオープンソース化し、さらなる研究を促進する。 Comment

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

関連:
- [Paper Note] AgentInstruct: Toward Generative Teaching with Agentic Flows, Arindam Mitra+, arXiv'24, 2024.07
- [Paper Note] Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, Adam Fourney+, arXiv'24, 2024.11
- [Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01
- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10
- GPT-4V-Act, ddupont808, 2023.10

WebVoyagerでの評価によると、タスクに対するコスト性能比が非常に高いことがわかる。

image

MIT Licence

著者ポスト:

Loading…

WebTailBenchと呼ばれる新たなベンチマークも提案されている。既存データに加えて、より多様なドメイン(不動産, 求人, 複数ショップとの比較)などが含まれるようである。

image

image




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #Evaluation #Safety #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #MultiModal #Reasoning #SoftwareEngineering #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 GPT Summary- 大規模言語モデル(LLMs)を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/




Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #One-Line Notes Issue Date: 2025-10-21 GPT Summary- ハイブリッドアクションを用いた基盤モデル「UltraCUA」を提案し、GUIの原始的なアクションと高レベルのプログラムツール呼び出しを統合。自動化パイプライン、合成データエンジン、ハイブリッドアクション軌跡コレクション、二段階のトレーニングパイプラインを構成要素とし、実験により最先端エージェントに対して22%の改善と11%の速度向上を達成。エラー伝播を減少させつつ実行効率を維持することが確認された。 Comment

元ポスト:

Loading…

従来のCUAはGUIに対する低レベルの操作(クリック、タイプ、スクロール)を利用する前提に立つが、本研究ではそれらだけではなくより高レベルのprogramatic tool calls(e.g., python関数呼び出し、キーボードショートカット、スクリプト実行、API呼び出し等)をシームレスに統合できるように合成データを作成しAgentをらSFTとRLしましたらよりベンチマークスコア向上した、というような話に見える。




Paper/Blog Link My Issue
#ComputerVision #Controllable #DiffusionModel #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-19 GPT Summary- ビデオ生成モデルの制約を克服するために、Ctrl-VIという新しいビデオ合成手法を提案。指定要素に対して高い制御性を持ち、非指定要素には多様性を維持。変分推論を用いて複数のビデオ生成バックボーンで合成分布を近似し、KLダイバージェンスの最小化を段階的に行う。実験により、制御性、多様性、3Dの一貫性が向上したことを示す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #Test-Time Scaling #VisionLanguageModel Issue Date: 2025-10-05 GPT Summary- GTA1というGUIエージェントは、ユーザーの指示を分解し、視覚要素と相互作用しながらタスクを自律的に完了します。計画の選択と視覚ターゲットとの正確な相互作用という2つの課題に対処するため、テスト時スケーリングを用いて最適なアクション提案を選び、強化学習を通じて基づけを改善します。実験により、GTA1は基づけとタスク実行の両方で最先端の性能を示しました。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
Issue Date: 2025-09-20 GPT Summary- ScaleCUAは、オープンソースのコンピュータ利用エージェント(CUAs)を拡張するための大規模データセットを提供し、6つのオペレーティングシステムと3つのタスクドメインをカバー。訓練されたモデルは、複数のプラットフォームでの操作においてベースラインを大幅に上回り、新たな最先端の結果を達成。データ、モデル、コードは公開予定。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #ReinforcementLearning #AIAgents #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-09-05 GPT Summary- UI-TARS-2は、GUI用自律エージェントの新しいモデルで、データ生成、安定化されたマルチターンRL、ハイブリッドGUI環境を統合。実証評価では、前モデルを大幅に上回り、複数のベンチマークで高いスコアを達成。約60%の人間レベルのパフォーマンスを示し、長期的な情報探索タスクにも適応可能。トレーニングダイナミクスの分析が安定性と効率向上の洞察を提供し、実世界のシナリオへの一般化能力を強調。 Comment

関連:
- [Paper Note] UI-TARS: Pioneering Automated GUI Interaction with Native Agents, Yujia Qin+, arXiv'25, 2025.01

元ポスト:

Loading…

1.5をリリースしてから5ヶ月で大幅に性能を向上した模様




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SmallModel #On-Policy #GUI #Asynchronous Issue Date: 2025-08-29 GPT Summary- 本論文では、GUI-OwlというGUIエージェントモデルを提案し、デスクトップおよびモバイル環境での最先端性能を達成したことを報告しています。特に、Mobile-Agent-v3フレームワークを導入し、性能を向上させました。GUI-Owlは、クラウドベースの仮想環境を利用した自己進化するデータ生成、エンドツーエンドの意思決定を支援する多様な機能、スケーラブルな強化学習フレームワークを特徴としています。これらの成果は、オープンソースとして公開されています。 Comment

github: https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25
- [Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Tianbao Xie+, arXiv'24, 2024.04

Trajectory-aware Relative Policy Optimization
(TRPO)




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents Issue Date: 2025-08-20 GPT Summary- ComputerRLは、自律的なデスクトップインテリジェンスのためのフレームワークで、API-GUIパラダイムを用いてエージェントがデジタルワークスペースを操作します。分散RLインフラを開発し、数千の仮想デスクトップ環境でのスケーラブルな強化学習を実現。Entropulseトレーニング戦略により、長期トレーニング中のエントロピー崩壊を軽減。GLM-4-9B-0414を用いたAutoGLM-OS-9Bは、OSWorldベンチマークで48.1%の新しい最先端精度を達成し、デスクトップ自動化における重要な改善を示しました。 Comment

ポイント解説:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #ReinforcementLearning #VisionLanguageModel Issue Date: 2025-08-16 GPT Summary- UI-Venusは、スクリーンショットを入力として受け取るマルチモーダル大規模言語モデルに基づくネイティブUIエージェントで、UIグラウンディングとナビゲーションタスクで最先端の性能を達成。7Bおよび72Bバリアントは、Screenspot-V2 / Proベンチマークで高い成功率を記録し、既存のモデルを上回る。報酬関数やデータクリーニング戦略を導入し、ナビゲーション性能を向上させるための新しい自己進化フレームワークも提案。オープンソースのUIエージェントを公開し、さらなる研究を促進。コードはGitHubで入手可能。 Comment

元ポスト:

Loading…

解説:

Loading…

HF: https://huggingface.co/collections/inclusionAI/ui-venus-689f2fb01a4234cbce91c56a




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #VisionLanguageModel #Author Thread-Post Issue Date: 2025-08-15 GPT Summary- OpenCUAは、CUAデータと基盤モデルをスケールさせるためのオープンソースフレームワークであり、アノテーションインフラ、AgentNetデータセット、反射的なChain-of-Thought推論を持つスケーラブルなパイプラインを提供。OpenCUA-32Bは、CUAベンチマークで34.8%の成功率を達成し、最先端の性能を示す。研究コミュニティのために、アノテーションツールやデータセットを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

CUAにおいてProprietaryモデルに近い性能を達成した初めての研究な模様。重要

続報:

Loading…


OSWorld VerifiedでUI-TARS-250705,claude-4-sonnet-20250514超えでtop1に君臨とのこと。




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Evaluation #MultiModal #ICLR #One-Line Notes Issue Date: 2025-04-18 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク




Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #MultiModal #Blog #Reasoning #OpenWeight #VisionLanguageModel #2D (Image) #One-Line Notes #text Issue Date: 2025-04-18 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のような操作を行うエンドツーエンドのGUIエージェントモデルである。従来の商用モデルに依存せず、知覚、グラウンディング、GUIタスク実行において最先端の性能を発揮。OSWorldベンチマークでは、UI-TARSが高スコアを達成し、他のモデルを上回る。主要な革新には、強化された知覚、統一されたアクションモデリング、System-2推論、反省的オンライン・トレースによる反復的トレーニングが含まれる。これにより、UI-TARSは未知の状況にも適応可能な学習能力を持つ。GUIエージェントの進化経路も分析し、今後の発展を探る。 Comment

色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)

関連
- OpenAI API での Computer use の使い方, npaka, 2025.03

元ポスト:

Loading…




Paper/Blog Link My Issue
#Dataset #AIAgents #Evaluation #MultiModal #ACL #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes #GUI Issue Date: 2025-11-25 GPT Summary- WebVoyagerは、実際のウェブサイトと対話しユーザーの指示をエンドツーエンドで完了できる大規模マルチモーダルモデルを搭載したウェブエージェントである。新たに設立したベンチマークで59.1%のタスク成功率を達成し、GPT-4やテキストのみのWebVoyagerを上回る性能を示した。提案された自動評価指標は人間の判断と85.3%一致し、ウェブエージェントの信頼性を高める。 Comment

日本語解説: https://blog.shikoan.com/web-voyager/

関連:
- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10

スクリーンショットを入力にHTMLの各要素に対してnumeric labelをoverlayし(Figure2)、VLMにタスクを完了するためのアクションを出力させる手法。アクションはFigure7のシステムプロンプトに書かれている通り。

たとえば、VLMの出力として"Click [2]" が得られたら GPT-4-Act GPT-4V-Act, ddupont808, 2023.10 と呼ばれるSoM [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 をベースにWebUIに対してマウス/キーボードでinteractできるモジュールを用いることで、[2]とマーキングされたHTML要素を同定しClick操作を実現する。

image

image




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #NeurIPS #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2023-07-03 GPT Summary- Mind2Webは、ウェブ上での汎用的なタスクをこなすエージェントの開発のための初のデータセットで、137のウェブサイトと31のドメインにまたがる2,000件以上のオープンエンドタスクを収集。これにより、多様なドメイン・タスクを扱え、実世界のサイトを対象にしたエージェント構築を支援。大規模言語モデル(LLMs)を用いることで、未見のウェブサイトでも一定の性能を発揮することを示し、データセットとモデルをオープンソース化して研究の促進を目指す。 Comment

Webにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。

タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまたいだ汎化性能を評価できる。

プロジェクトサイト:
https://osu-nlp-group.github.io/Mind2Web/




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #One-Line Notes #GUI #Environment Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Hcompany/Holo3-35B-A3B

関連:
- Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11

Qwen3.5をファインチューニングすることで実現。以前のシリーズもQwenベースだったが、新たなQwenのリリースに伴いより強力なベースモデルを得て、かつシナリオをベースにして自動でwebsiteを構築しverifiableが可能な独自のEnvironmentを保持しており、多様な合成データの活用とRLを実現することで、性能が向上していると思われる。




Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #FoundationModel #DiffusionModel #4D (Video) #One-Line Notes #VideoActionModel Issue Date: 2026-02-27 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

関連:
- [Paper Note] Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos, Bowen Baker+, arXiv'22, 2022.06

Training Recipeの部分を読むと、上記研究で提案されているVideo PreTrainingと同じ手法を用いているように見える。
つまり、Inverse Dynamics Modelを学習し、大量のvideoデータに対してアクションラベルを付与し、付与されたアクションラベルを用いて半教師あり学習によるnext action predictionを実施することによって基盤モデルを学習する、というアプローチ。

この基盤モデルによってたとえば1時間のサンフランシスコをdrivingしている動画によってfinetuningすることで、自動運転をするようなモデルが学習できる、といったことが実現可能な模様。




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #Proprietary #VisionLanguageModel Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

GUI Agentとして性能はトップレベル(Opusが比較対象に入っていないが)で、
image

テキスト、画像モダリティでの検索でもトップレベル、codingやツール利用などは少し劣るように見える。
image

LLM系、VideoUnderstanding系ののベンチマークではフロンティアモデル群と同等、VLM系のタスクではフロンティアモデル群と同等以上の性能に見える。

が、一方のモダリティはGPT5で比較しているのに対し、他方はGPT5.1であったりしており、比較対象が少し恣意的にピックされているのでは?という気もする。

モデルカード: https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/research/Seed-1.8-Modelcard.pdf




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #GRPO #VisionLanguageModel #GUI Issue Date: 2025-09-16 Comment

7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい

モデルカードとブログによると下記モデル群とSonnet 4 よりもComputer Use関連ベンチマーク(GUI上での位置を特定するUI LocalizationとScreen Contentの理解およびQA関連のベンチマーク)で高性能とのこと:
- [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25
- [Paper Note] UI-TARS: Pioneering Automated GUI Interaction with Native Agents, Yujia Qin+, arXiv'25, 2025.01
- Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03

モデルカードによるとopen sourceデータのmixと、合成データ、人手でアノテーションされたデータを用いて、SFT->GRPOによって学習されたとだけ書かれている。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Reading Reflections Issue Date: 2025-03-15 Comment

公式リポジトリ: https://github.com/browser-use/browser-use

BrowserUseはDoMを解析するということは内部的にテキストをLLMで処理してアクションを生成するのだろうか。OpenAIのComputer useがスクリーンショットからアクションを生成するのとは対照的だと感じた(小並感)。

- OpenAI API での Computer use の使い方, npaka, 2025.03