GUI
[Paper Note] Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents, Haiyang Xu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #OpenWeight #ComputerUse Issue Date: 2026-02-28 GPT Summary- GUI-Owl-1.5は、指示型および思考型のGUIエージェントモデルで、幅広いプラットフォームをサポート。複数のサイズで提供され、20のGUIベンチマークで最先端の成果を達成。重要な革新には、ハイブリッドデータパイプライン、推論能力の統一的強化、マルチプラットフォーム環境の新アルゴリズムMRPOが含まれる。モデルはオープンソースで、オンラインデモが提供されている。 Comment
pj page: https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3.5
[Paper Note] UI-Venus-1.5 Technical Report, Veuns-Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #AIAgents #mid-training #ModelMerge #Off-Policy #On-Policy #VisionLanguageModel #One-Line Notes #Rubric-based #Initial Impression Notes Issue Date: 2026-02-12 GPT Summary- 統合型エンドツーエンドGUIエージェントUI-Venus-1.5を紹介。さまざまなアプリケーションに対応する2B、8B、および30B-A3Bのモデルバリアントを持ち、10億トークンを活用したMid-Training、オンライン強化学習、ドメイン固有モデルの統合を実施。評価においてScreenSpot-Pro、VenusBench-GD、AndroidWorldで新たな最先端パフォーマンスを達成し、中国のモバイルアプリでも効果的なナビゲーションを実現。 Comment
元ポスト:
Mid-training(navigation, grounding, reasoning, GUI-VQA, アイコンの認識等の精緻な認識能力)でGUIに関する知識を身につけさせ、オフラインRLで特定のタスクに特化した能力(grounding, navigation等)を向上し、オンラインRLで実シナリオでのエージェントのtrajectoryレベルでの能力を向上させる。これらのモデルはモバイルとwebでそれぞれ学習され、最終的にモデルマージを通じて単一のend-to-endにタスクを実現可能なエージェントを構築する。
コールドスタートの対策のためにSFTではなくオフポリシーRLを使っているのが特徴
下記研究において、SFTが各trajectoryがトークン単位で一致したときに1となるrewardを用いたRLと一致することが示されており、汎化能力に課題があることが指摘されている[^1]。汎化性能は後回しにして、特定の能力にとにかくまずは強化したいという用途であればSFTでも良いかもしれないが、downstreamなタスクがend-to-endで多様なタスクとなる場合は、オフラインRLを用いて汎化性能も考慮しつつ多面的な能力をwarmupするのが良いのかもしれない。
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
[^1]: ポリシーがexpertのtrajectoryに対して低い尤度を示すとimportance weightingにより非常に大きい重みがかけられることで分散が大きく、かつ報酬シグナルがsparseなことが課題であることが指摘されている。
[Paper Note] Code2World: A GUI World Model via Renderable Code Generation, Yuhao Zheng+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Coding #VisionLanguageModel #WorldModels #One-Line Notes Issue Date: 2026-02-12 GPT Summary- 自律的なGUIエージェントは、GUI Worldモデルを用いて行動を実行し、人間のような先見性を持つ。既存のアプローチは視覚的忠実性と構造的制御の両立が困難である。そこで、Code2Worldを提案し、レンダリング可能なコード生成を通じて次の視覚状態をシミュレートする。GUIトラジェクトリを高忠実度のHTMLに変換し、合成コードを洗練。Render-Aware Reinforcement Learningを用いて視覚的意味の忠実性と行動の一貫性を強化。広範な実験により、Code2World-8Bは競争力のあるモデルに匹敵するパフォーマンスを達成し、ナビゲーション成功率を大幅に向上させた。 Comment
pj page: https://amap-ml.github.io/Code2World/
元ポスト:
現在のスクリーンショットと、アクションのペアから、次のスクリーンショットをレンダリング可能なコードを通じて予測する(Next UI Prediction)
[Paper Note] Programming with Pixels: Can Computer-Use Agents do Software Engineering?, Pranjal Aggarwal+, ICLR'26, 2025.02
Paper/Blog Link My Issue
#ComputerVision #Dataset #AIAgents #Evaluation #Coding #ICLR #SoftwareEngineering #ComputerUse #VisionLanguageModel Issue Date: 2026-02-05 GPT Summary- CUA(コンピュータ利用エージェント)は一般的なタスクを実行する可能性があるが、ソフトウェアエンジニアリングのような専門的な作業の自動化能力は不明である。本研究では、「Programming with Pixels」(PwP)を導入し、エージェントが視覚的にIDEを操作して多様なソフトウェアエンジニアリングタスクを実行する環境を提供する。また、15のソフトウェアエンジニアリングタスクに対するベンチマーク「PwP-Bench」を設立し、CUAsの性能を評価した。結果、純粋な視覚的インタラクションでは専門エージェントに劣るが、APIへの直接アクセスを与えることで性能が向上し、専門性に達することが多かった。CUAsは視覚的基盤の限界と環境の効果的な活用に課題があるが、PwPは洗練されたタスクに対する評価の新たな基準を提供する。 Comment
pj page: https://github.com/ProgrammingwithPixels/PwP
元ポスト:
[Paper Note] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection, Mingyu Ouyang+, CVPR'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #CVPR #VisionLanguageModel #Grounding Issue Date: 2026-01-13 GPT Summary- 視覚言語モデル(VLM)を用いたUIグラウンディングタスクに関する研究で、FocusUIという効率的なフレームワークを提案。冗長トークンを排除し、指示に関連する視覚トークンを選択しつつ、位置的連続性を保持する新戦略を採用。これにより、4つのベンチマークで優れた性能を発揮し、特にScreenSpot-Proでは3.7%の性能向上を達成。視覚トークン保持率が30%でも高い推論速度と低メモリ使用を実現。 Comment
元ポスト:
[Paper Note] LightAgent: Mobile Agentic Foundation Models, Yangqin Jiang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #Reasoning #SmallModel #OpenWeight #ComputerUse #PostTraining #VisionLanguageModel #One-Line Notes Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment
pj page: https://github.com/HKUDS/OpenPhone
3Bで10B級の性能を誇る低latencyのedge device向けSVLM
元ポスト:
[Paper Note] NeuralOS: Towards Simulating Operating Systems via Neural Generative Models, Luke Rivard+, arXiv'25, 2025.07
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #WorldModels #interactive #RecurrentModels Issue Date: 2026-01-17 GPT Summary- NeuralOSは、ユーザーの入力に基づいてGUIをシミュレーションするニューラルフレームワークであり、RNNと拡散ベースのレンダラーを組み合わせています。Ubuntu XFCEの録画データを用いた訓練により、リアルなGUIシーケンスをレンダリングし、状態遷移を信頼性高く予測可能であることが実証されました。キーボードインタラクションのモデル化は依然として難しいものの、NeuralOSは将来のヒューマンコンピュータインタラクションのための適応的なインターフェイスの一歩を示します。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=TE2Vu7WJki
[Paper Note] ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands, Siyuan Hu+, CVPR'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #SyntheticData #CVPR #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Dragging Issue Date: 2026-01-16 GPT Summary- ShowUI-$\pi$は、GUIエージェントにおける連続的な操作を可能にするフローベースの生成モデルです。これにより、離散的なクリックと連続的なドラッグを統合し、滑らかで安定したトラジェクトリーを実現します。2万のドラッグトラジェクトリーを用いたScreenDragプロトコルによる評価で、既存のGUIエージェントと比較して優れた性能を発揮しました。この研究は、人間のような器用な自動化の実現を促進します。 Comment
pj page: https://showlab.github.io/showui-pi/
元ポスト:
大規模なドラッグに関するデータセットを収集しており、エージェントのGUIの操作の今後の進展に大きく寄与しインパクトが大きいと考えられるため、重要論文に見える。
著者ポイント解説:
[Paper Note] Mobile-Agent-v3: Foundamental Agents for GUI Automation, Jiabo Ye+, arXiv'25, 2025.08
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SmallModel #ComputerUse #On-Policy #Asynchronous Issue Date: 2025-08-29 GPT Summary- 本論文では、GUI-OwlというGUIエージェントモデルを提案し、デスクトップおよびモバイル環境での最先端性能を達成したことを報告しています。特に、Mobile-Agent-v3フレームワークを導入し、性能を向上させました。GUI-Owlは、クラウドベースの仮想環境を利用した自己進化するデータ生成、エンドツーエンドの意思決定を支援する多様な機能、スケーラブルな強化学習フレームワークを特徴としています。これらの成果は、オープンソースとして公開されています。 Comment
github: https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file
元ポスト:
ベンチマーク:
- AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25
- [Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real
Computer Environments, Tianbao Xie+, arXiv'24
Trajectory-aware Relative Policy Optimization
(TRPO)
New Holo2 model takes the lead in UI Localization, H Company, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2026-02-05 Comment
HF: https://huggingface.co/Hcompany/Holo2-235B-A22B
元ポスト:
関連:
- Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #ComputerUse #GRPO #VisionLanguageModel Issue Date: 2025-09-16 Comment
7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい
モデルカードとブログによると下記モデル群とSonnet 4 よりもComputer Use関連ベンチマーク(GUI上での位置を特定するUI LocalizationとScreen Contentの理解およびQA関連のベンチマーク)で高性能とのこと:
- [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25
- Introducing UI-TARS-1.5, ByteDance, 2025.04
- Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03
モデルカードによるとopen sourceデータのmixと、合成データ、人手でアノテーションされたデータを用いて、SFT->GRPOによって学習されたとだけ書かれている。
