Dragging
[Paper Note] ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands, Siyuan Hu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #AIAgents #SyntheticData #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #GUI Issue Date: 2026-01-16 GPT Summary- ShowUI-$\pi$は、GUIエージェントにおける連続的な操作を可能にするフローベースの生成モデルです。これにより、離散的なクリックと連続的なドラッグを統合し、滑らかで安定したトラジェクトリーを実現します。2万のドラッグトラジェクトリーを用いたScreenDragプロトコルによる評価で、既存のGUIエージェントと比較して優れた性能を発揮しました。この研究は、人間のような器用な自動化の実現を促進します。 Comment
pj page: https://showlab.github.io/showui-pi/
元ポスト:
大規模なドラッグに関するデータセットを収集しており、エージェントのGUIの操作の今後の進展に大きく寄与しインパクトが大きいと考えられるため、重要論文に見える。
著者ポイント解説: