GUIに関する論文・技術記事メモの一覧

GUI

[Paper Note] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection, Mingyu Ouyang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #NLP #VisionLanguageModel #Grounding Issue Date: 2026-01-13 GPT Summary- 視覚言語モデル（VLM）を用いたUIグラウンディングタスクに関する研究で、FocusUIという効率的なフレームワークを提案。冗長トークンを排除し、指示に関連する視覚トークンを選択しつつ、位置的連続性を保持する新戦略を採用。これにより、4つのベンチマークで優れた性能を発揮し、特にScreenSpot-Proでは3.7%の性能向上を達成。視覚トークン保持率が30%でも高い推論速度と低メモリ使用を実現。 Comment

元ポスト:

Loading…

[Paper Note] LightAgent: Mobile Agentic Foundation Models, Yangqin Jiang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #Reasoning #SmallModel #OpenWeight #ComputerUse #VisionLanguageModel #One-Line Notes Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment

pj page: https://github.com/HKUDS/OpenPhone

3Bで10B級の性能を誇る低lavencyのedge device向けSVLM

元ポスト:

Loading…

[Paper Note] ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands, Siyuan Hu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #AIAgents #SyntheticData #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Dragging Issue Date: 2026-01-16 GPT Summary- ShowUI-$\pi$は、GUIエージェントにおける連続的な操作を可能にするフローベースの生成モデルです。これにより、離散的なクリックと連続的なドラッグを統合し、滑らかで安定したトラジェクトリーを実現します。2万のドラッグトラジェクトリーを用いたScreenDragプロトコルによる評価で、既存のGUIエージェントと比較して優れた性能を発揮しました。この研究は、人間のような器用な自動化の実現を促進します。 Comment

pj page: https://showlab.github.io/showui-pi/

元ポスト:

Loading…

大規模なドラッグに関するデータセットを収集しており、エージェントのGUIの操作の今後の進展に大きく寄与しインパクトが大きいと考えられるため、重要論文に見える。

著者ポイント解説:

Loading…