Faithfulness

#NaturalLanguageGeneration #NLP #Explanation #Evaluation
Issue Date: 2023-07-18 Faithfulness Tests for Natural Language Explanations, ACL'23 Summary本研究では、ニューラルモデルの説明の忠実性を評価するための2つのテストを提案しています。1つ目は、カウンターファクチュアルな予測につながる理由を挿入するためのカウンターファクチュアル入力エディタを提案し、2つ目は生成された説明から入力を再構築し、同じ予測につながる頻度をチェックするテストです。これらのテストは、忠実な説明の開発において基本的なツールとなります。 #DocumentSummarization #NaturalLanguageGeneration #NLP #Extractive
Issue Date: 2023-07-18 Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization, ACL'23 Summary本研究では、抽出的な要約の不正確さの問題について議論し、それを5つのタイプに分類します。さらに、新しい尺度であるExtEvalを提案し、不正確な要約を検出するために使用することを示します。この研究は、抽出的な要約の不正確さに対する認識を高め、将来の研究に役立つことを目指しています。 CommentExtractive SummarizatinoのFaithfulnessに関する研究。

>抽出的な要約は抽象的な要約の一般的な不正確さの問題にはあまり影響を受けにくいですが、それは抽出的な要約が正確であることを意味するのでしょうか?結論はノーです。

>本研究では、抽出的な要約に現れる広範な不正確さの問題(非含意を含む)を5つのタイプに分類

>不正確な共参照、不完全な共参照、不正確な談話、不完全な談話、および他の誤解を招く情報が含まれます。

>私たちは、16の異なる抽出システムによって生成された1600の英語の要約を人間にラベル付けするように依頼しました。その結果、要約の30%には少なくとも5つの問題のうちの1つが存在することがわかりました。



おもしろい。
#Analysis #Pocket #NLP #LanguageModel #Chain-of-Thought #NeurIPS
Issue Date: 2023-05-09 Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting, Miles Turpin+, N_A, NeurIPS'23 SummaryLLMsによる推論において、chain-of-thought reasoning(CoT)と呼ばれる説明を生成することができるが、この説明がモデルの予測の真の理由を誤って表現することがあることがわかった。バイアスのある特徴をモデルの入力に追加することで、CoT説明が大きく影響を受けることが示された。この結果は、LLMsに対する信頼を高めるために、説明の忠実度を評価し、改善する必要があることを示唆している。

#DocumentSummarization #Pocket #NLP #Abstractive #Factuality #ACL Issue Date: 2025-07-14 [Paper Note] On Faithfulness and Factuality in Abstractive Summarization, Joshua Maynez+, ACL'20 Summary抽象的な文書要約における言語モデルの限界を分析し、これらのモデルが入力文書に対して忠実でない内容を生成する傾向が高いことを発見。大規模な人間評価を通じて、生成される幻覚の種類を理解し、すべてのモデルで相当量の幻覚が確認された。事前学習されたモデルはROUGE指標だけでなく、人間評価でも優れた要約を生成することが示された。また、テキストの含意測定が忠実性と良好に相関することが明らかになり、自動評価指標の改善の可能性を示唆。 Comment文書要約の文脈において `hallucination` について説明されている。
・1044

が `hallucination` について言及する際に引用している。
#Article #NLP #LanguageModel #Chain-of-Thought #Prompting Issue Date: 2023-07-23 Measuring Faithfulness in Chain-of-Thought Reasoning, Anthropic, 2023 Summary大規模言語モデル(LLMs)は、Chain-of-Thought(CoT)推論を生成することで質問に答える性能を向上させるが、その推論が実際の推論を忠実に表しているかは不明である。本研究では、CoT推論の忠実さを調査し、CoTに介入することでモデルの予測がどのように変化するかを調べる。結果は、モデルのサイズやタスクによってCoTの忠実さが異なることを示唆している。