Ambiguityに関する論文・技術記事メモの一覧

Ambiguity

[Paper Note] Agentic Uncertainty Quantification, Jiaxin Zhang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Hallucination Issue Date: 2026-03-30 GPT Summary- AIエージェントは長期的な推論に優れた能力を持つが、「幻覚の螺旋」により信頼性が損なわれる。既存の不確実性の定量化手法は受動的で、自己反省は無目的な修正に苦しむ。これを解決するために、言語化された不確実性を双方向の制御信号に変換する二過程型エージェント式UQフレームワークを提案。System 1は不確実性を伝達し盲目的な意思決定を防ぎ、System 2は合理的な手掛かりを使って必要時に推論を行う。実験によって、訓練不要で高い性能を示し、信頼できるエージェントの実現に向けた一歩としての可能性を示唆している。 Comment

元ポスト:

Loading…

[Paper Note] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty, Johannes Kirmayr+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation Issue Date: 2026-02-08 GPT Summary- 既存のLLMエージェントのベンチマークは理想環境でのタスク完了に偏っており、実際のユーザーアプリケーションでの信頼性を無視している。本研究では、車内アシスタント向けの「CAR-bench」を提案し、マルチターン対話やツール使用を通じた不確実性管理を評価する。この環境には、58の相互接続ツールが含まれており、「幻覚タスク」と「曖昧さ解消タスク」を導入してエージェントの能力をテスト。結果は、曖昧さ解消タスクでの一貫性が50％未満と低く、ポリシー違反や情報捏造が多発することから、より信頼性の高い自己認識を持つLLMエージェントの必要性を示している。 Comment

元ポスト:

Loading…

[Paper Note] We're Afraid Language Models Aren't Modeling Ambiguity, Alisa Liu+, EMNLP'23

Paper/Blog Link My Issue
#Dataset #LanguageModel #Evaluation #EMNLP #KeyPoint Notes Issue Date: 2023-04-28 GPT Summary- 曖昧さは自然言語の重要な特徴であり、言語モデル（LM）が対話や執筆支援において成功するためには、曖昧な言語を扱うことが不可欠です。本研究では、曖昧さの影響を評価するために、1,645の例からなるベンチマーク「AmbiEnt」を収集し、事前学習済みLMの評価を行いました。特にGPT-4の曖昧さ解消の正答率は32%と低く、曖昧さの解消が難しいことが示されました。また、多ラベルのNLIモデルが曖昧さによる誤解を特定できることを示し、NLPにおける曖昧さの重要性を再認識する必要性を提唱しています。 Comment

LLMが曖昧性をどれだけ認知できるかを評価した初めての研究。
言語学者がアノテーションした1,645サンプルの様々な曖昧さを含んだベンチマークデータを利用。
GPT4は32%正解した。
またNLIデータでfinetuningしたモデルでは72.5%のmacroF1値を達成。
応用先として、誤解を招く可能性のある政治的主張に対してアラートをあげることなどを挙げている。