Proactive
[Paper Note] $π$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows, Haoran Zhang+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Conversation #Selected Papers/Blogs #Ambiguity #reading #One-Line Notes #LongHorizon Issue Date: 2026-05-27 GPT Summary- パーソナルアシスタントエージェントは、OpenClawのような大規模言語モデルの潜在能力を示しており、特に隠れたユーザー意図の特定に課題がある。本研究では、100のマルチターンタスクからなる積極的支援のベンチマークであるπ-Benchを導入し、長期的な対話におけるユーザーのニーズ予測能力を評価。実験により、積極的支援の難しさ、タスク完遂と積極性の違い、事前対話の重要性が示された。 Comment
元ポスト:
ユーザがOpenClawのようなPersonal Assistantを用いて、マルチターンでのconversationを通じて、ある1つのタスクを遂行したいという状況を想定する。このタスクの開始時には、ユーザは一般的には自然で妥当なクエリを投げるが、最初から全てのrequirementを満たしたクエリは投げず、会話をしながら徐々にrequirementを具体化していくような変遷を辿る。このような、タスク開始時に、タスクを開始する上では自然で妥当だが、タスクを完遂するにはrequirementの情報が足りないという状況において、AI Agentが会話を通じて、ユーザが暗黙的に意図している仕様(hidden intents)を考慮して(=ユーザが明示的にinstructionとしてrequirementを与える前に)タスクを完遂できるか、という能力を測定する。
1つのタスクを完遂するために20個のsessionの会話によって構成されており、hidden intentsはsessionの中で閉じている、あるいはsessionを跨いで維持されるようなものとなっており、これらの情報をエージェントは過去のsessionの情報(メモリ)から推測するか、あるいは明示的にhidden intentsについて質問をするようなProactiveな挙動によって収集した上でタスクを遂行しなければならない。このとき、Userの役割を果たすエージェントは、GPT-5.4によって再現される。
[Paper Note] ProAgent: Harnessing On-Demand Sensory Contexts for Proactive LLM Agent Systems, Bufang Yang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #read-later #One-Line Notes Issue Date: 2025-12-11 GPT Summary- ProAgentは、感覚的コンテキストとLLM推論を活用した初のプロアクティブエージェントシステムで、ユーザーの指示に依存せずに支援を提供します。階層的知覚を用いて環境を感知し、ユーザーのニーズに基づいた推論を行います。ARメガネ上で実装され、実世界のテストでプロアクティブ予測精度を33.4%、ツール呼び出しF1スコアを16.8%向上させ、ユーザー満足度も改善しました。 Comment
元ポスト:
私が13年前に思い描いた未来だ🤩
主観視点の映像、モーションセンサ、音声、本人のペルソナ等の様々な環境からの情報に基づいて、エージェント側からユーザに能動的に働きかけてくるような枠組み
