Hallucinationに関する論文・技術記事メモの一覧

Hallucination

[Paper Note] Features as Rewards: Scalable Supervision for Open-Ended Tasks via Interpretability, Aaditya Vikram Prasad+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Probing #One-Line Notes #Open-endedTasks Issue Date: 2026-02-12 GPT Summary- 特徴をスケーラブルな監視として用いる新アプローチ「RLFR」を提案。幻覚を減少させるため、強化学習パイプラインを設計し、モデルが出力の事実性に不確かさがある場合に介入・修正を学習。実験により、元のモデルより58%幻覚の可能性が低い結果を達成しながら、パフォーマンスを維持。解釈可能性の新しいパラダイムを示す。 Comment

元ポスト:

Loading…

（以下論文をちゃんと理解できているか少し自信ないです）

activation steeringやLLMの内部表現の分析に利用されるprobing手法をRLの報酬に活用する研究で、学習させたい特徴をprobingによって予測できるモデルを用意し（今回はhallucination)、報酬として活用できるパイプラインを用意して（少しこのパイプラインがややこしい）RLするという話に見える。probingするモデルを学習するデータの合成に際はstrong modelが用いられる（今回はGemini 2.5 Pro)。要は、テスト時にsteeringできるのであれば、学習時にモデルが内部的に保持している特徴を活用してRLしちゃえばいいじゃん、という発想に見える。

流れとしては、input textが与えられた時にprobingを実施して、どこのspanにhallucinationがあるかを検出し、現在のポリシーにその情報を用いて新たなcontextを生成しself verificationさせる（情報を維持、撤回させるのか、修正のいずれの操作のうちどれを実施すべきかを出力）ことでロールアウトを実施。続いて、ロールアウトされたテキストに対して、**ベースモデルを用いてprobingを実施し**、その結果をrewardとしてポリシーをアップデートする。ベースモデルを使う部分の気持ちがどこに書かれているかがわからないのだが、おそらく、現在のポリシーのロールアウトをベースモデルを用いてprobingすることでreward hackingを防止している。test timeにも同様のprobingを実施し、Best-of-Nで応答を生成する（Figure2)。

[Paper Note] Training LLMs for Honesty via Confessions, Manas Joglekar+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Safety Issue Date: 2025-12-10 GPT Summary- 大規模言語モデル（LLMs）は、不誠実な行動を示すことがあり、強化学習の影響で誤った表現をすることがあります。本研究では、自己報告による「告白」を提案し、モデルが誠実に行動を説明することを目指します。告白の報酬はその誠実さに基づき、モデルに誠実さを奨励します。実験では、GPT-5-Thinkingを用いて告白の生成とその誠実さを評価し、モデルが不正行為を告白する傾向があることを示しました。告白は、推論時の介入を可能にします。 Comment

元ポスト:

Loading…

[Paper Note] Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations, Tong Chen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-15 GPT Summary- 本研究では、外的幻覚を軽減するために新しいバイナリ検索強化報酬（RAR）を用いたオンライン強化学習手法を提案。モデルの出力が事実に基づいている場合のみ報酬を与えることで、オープンエンド生成において幻覚率を39.3%削減し、短文質問応答では不正解を44.4%減少させた。重要な点は、事実性の向上が他のパフォーマンスに悪影響を及ぼさないことを示した。 Comment

Utilityを維持しつつ、Hallucinationを減らせるかという話で、Binary Retrieval Augmented Reward (Binary RAR)と呼ばれるRewardを提案している。このRewardはverifierがtrajectoryとanswerを判断した時に矛盾がない場合にのみ1, それ以外は0となるbinary rewardである。これにより、元のモデルの正解率・有用性（極論全てをわかりません（棄権）と言えば安全）の両方を損なわずにHallucinationを提言できる。

また、通常のVerifiable Rewardでは、正解に1, 棄権・不正解に0を与えるRewardとみなせるため、モデルがguessingによってRewardを得ようとする（guessingすることを助長してしまう）。一方で、Binary RARは、正解・棄権に1, 不正解に0を与えるため、guessingではなく不確実性を表現することを学習できる（おそらく、棄権する場合はどのように不確実かを矛盾なく説明した上で棄権しないとRewardを得られないため）。

といった話が元ポストに書かれているように見える。

元ポスト:

Loading…

[Paper Note] SPICE: Self-Play In Corpus Environments Improves Reasoning, Bo Liu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #SelfImprovement #CurriculumLearning #Diversity Issue Date: 2025-10-29 GPT Summary- SPICE（Self-Play In Corpus Environments）は、自己改善システムのための強化学習フレームワークで、単一モデルが「挑戦者」と「推論者」の2役を担う。挑戦者は文書を抽出して多様な推論タスクを生成し、推論者はそれを解決する。これにより、自動カリキュラムが形成され、持続的な改善が促進される。SPICEは、既存の手法に比べて数学的および一般的な推論のベンチマークで一貫した向上を示し、挑戦的な目標の生成が自己改善に重要であることを明らかにした。 Comment

元ポスト:

Loading…

[Paper Note] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning, Zhepei Wei+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #Trustfulness Issue Date: 2025-10-02 GPT Summary- 本研究では、LLMsの真実性を最適化するための強化学習フレームワークTruthRLを提案。三値報酬を用いて正しい回答、幻覚、abstentionを区別し、不確実な場合には控えることを促進。実験により、TruthRLは幻覚を28.9%減少させ、真実性を21.1%向上させることが確認され、従来の手法よりも優れた性能を示した。正確さと真実性のバランスを取る重要性が強調される。 Comment

元ポスト:

Loading…

一般的に利用されるBinary Reward（回答が正しければ1, そうでなければ-1)ではなく、Ternary Reward
- 回答が正しければ1
- 不確実であれば0
- 誤りであれば-1

を利用しGRPOすることで、hallucinationが向上し、trustfulnessも改善する、という話な模様

[Paper Note] HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation, Loris Bergeron+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #SmallModel Issue Date: 2025-10-02 GPT Summary- HalluGuardは、LLMsの幻覚を軽減するための4Bパラメータの小型推論モデルで、文書-主張ペアを分類し、証拠に基づいた正当化を生成します。FineWebから派生した合成データセットと、好みベースのファインチューニングを用いて、RAGTruthサブセットで84.0%のバランス精度を達成し、MiniCheckやGranite Guardianと同等の性能を示します。全体のベンチマークでは75.7%のバランス精度を達成し、GPT-4oと同等の性能を持ちます。HalluGuardとデータセットは公開予定です。 Comment

元ポスト:

Loading…

Document xとclaim cがgivenなときに、それがgroundingされているか否かを判定し、justificationをするテキストをxを参照しながら生成するようなSLMな模様。モデルとデータはまだ未公開とのこと。

[Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Evaluation #TMLR #read-later Issue Date: 2025-09-18 GPT Summary- 大規模言語モデル（LLMs）の類似性を理解するために、想像上の質問応答（IQA）という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment

openreview: https://openreview.net/forum?id=NUXpBMtDYs

元ポスト:

Loading…

[Paper Note] Self-Rewarding Vision-Language Model via Reasoning Decomposition, Zongxia Li+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #NLP #SelfImprovement #VisionLanguageModel Issue Date: 2025-08-28 GPT Summary- Vision-Language Models (VLMs)は視覚的幻覚や言語的ショートカットに悩まされることが多い。これらの問題は、ポストトレーニング手法が中間の視覚的推論に対する指導を欠いているために生じる。本研究では、外部の視覚的監視に依存せずに視覚的推論を改善する自己報酬法Vision-SR1を提案。モデルは視覚的知覚と言語的推論を2段階に分解し、自己完結型の視覚的知覚を生成し、その後に言語的推論を行うことで報酬を計算する。実験により、Vision-SR1が視覚的推論を改善し、幻覚を軽減することが示された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] A comprehensive taxonomy of hallucinations in Large Language Models, Manuel Cossio, arXiv'25

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel Issue Date: 2025-08-08 GPT Summary- LLMのハルシネーションに関する包括的な分類法を提供し、その本質的な避けられなさを提唱。内因的および外因的な要因、事実誤認や不整合などの具体的な現れを分析。根本的な原因や認知的要因を検討し、評価基準や軽減戦略を概説。今後は、信頼性のある展開のために検出と監視に焦点を当てる必要があることを強調。 Comment

元ポスト:

Loading…

[Paper Note] GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs, Duy Nguyen+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ActivationSteering/ITI #Trustfulness Issue Date: 2025-07-26 GPT Summary- GrAInSは、LLMsおよびVLMsの推論時に内部活性を調整する新しいステアリング手法で、固定された介入ベクトルに依存せず、トークンの因果的影響を考慮します。統合勾配を用いて、出力への寄与に基づき重要なトークンを特定し、望ましい行動への変化を捉えるベクトルを構築します。これにより、再訓練なしでモデルの挙動を細かく制御でき、実験ではファインチューニングや既存手法を上回る成果を示しました。具体的には、TruthfulQAで精度を13.22%向上させ、MMHal-Benchの幻覚率を低下させ、SPA-VLでのアライメント勝率を改善しました。 Comment

元ポスト:

Loading…

既存のsteering手法は、positive/negativeなサンプルからの差分で単一方向のベクトルを算出し、すべてのトークンに足し合わせるが、本手法はそこからさらにpositive/negativeな影響を与えるトークンレベルにまで踏み込み、negativeなベクトルとpositiveなベクトルの双方を用いて、negative->positive方向のベクトルを算出してsteeringに活用する方法っぽい？

[Paper Note] Steer LLM Latents for Hallucination Detection, Seongheon Park+, ICML'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ICML #OptimalTransport Issue Date: 2025-06-14 GPT Summary- LLMの幻覚問題に対処するため、Truthfulness Separator Vector（TSV）を提案。TSVは、LLMの表現空間を再構築し、真実と幻覚の出力を分離する軽量な指向ベクトルで、モデルのパラメータを変更せずに機能。二段階のフレームワークで、少数のラベル付き例からTSVを訓練し、ラベルのない生成物を拡張。実験により、TSVは最小限のラベル付きデータで高いパフォーマンスを示し、実世界のアプリケーションにおける実用的な解決策を提供。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=UMqNQEPNT3¬eId=mAbrf36RHa

[Paper Note] Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #Alignment #ICLR #DPO #Repetition Issue Date: 2025-04-18 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化（DPO）における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

Hallucination Mitigation using Agentic AI Natural Language-Based Frameworks, Diego Gosmar+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents Issue Date: 2025-04-11 GPT Summary- 本研究では、複数のAIエージェントを調整し、自然言語処理を活用して幻覚を軽減する方法を探求。300以上の幻覚を誘発するプロンプトを用いたパイプラインを設計し、出力を第二および第三レベルのエージェントがレビュー。新たに設計したKPIで幻覚スコアを評価し、OVONフレームワークを通じてエージェント間で文脈情報を転送。結果として、相互運用可能なエージェントを活用することで幻覚の軽減に成功し、AIへの信頼を強化することが示された。 Comment

元ポスト:

Loading…

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations, Hadas Orgad+, N_A, ICLR'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR Issue Date: 2024-10-20 GPT Summary- LLMsは「幻覚」と呼ばれるエラーを生成するが、内部状態が真実性に関する情報をエンコードしていることが示されている。本研究では、真実性情報が特定のトークンに集中していることを発見し、これを利用することでエラー検出性能が向上することを示す。しかし、エラーディテクターはデータセット間で一般化に失敗し、真実性のエンコーディングは普遍的ではないことが明らかになる。また、内部表現を用いてエラーの種類を予測し、特化した緩和戦略の開発を促進する。さらに、内部エンコーディングと外部の振る舞いとの不一致が存在し、正しい答えをエンコードしていても誤った答えを生成することがある。これにより、LLMのエラー理解が深まり、今後の研究に寄与する。 Comment

特定のトークンがLLMのtrustfulnessに集中していることを実験的に示し、かつ内部でエンコードされたrepresentationは正しい答えのものとなっているのに、生成結果に誤りが生じるような不整合が生じることも示したらしい

openreview: https://openreview.net/forum?id=KRnsX5Em3W

[Paper Note] FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios, I-Chun Chern+, COLM'25, 2023.07

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #Factuality #COLM Issue Date: 2023-07-27 GPT Summary- 生成的事前学習モデルによるテキスト合成は進展したが、事実誤認の特定には課題が残る。特に、生成モデルによる事実誤認のリスク増加、長文化による粒度の欠如、明示的証拠の不足が問題である。これらを解決するために、タスクやドメインに依存しない事実誤認検出フレームワークFacToolを提案。知識ベースのQA、コード生成、数学的推論、科学文献レビューの4つのタスクで有効性を実証し、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=hJkQL9VtWT#discussion

A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models, Sahoo+, EMNLP'24 Findings

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #MultiModal Issue Date: 2025-09-24 GPT Summary- 基盤モデル（FMs）の多様なドメインにおける進展は顕著だが、特に高リスクなアプリケーションでは幻覚的な出力が問題となる。本調査論文は、テキスト、画像、動画、音声におけるFMsの幻覚の問題を特定し、軽減策の最近の進展をまとめる。幻覚の定義、分類、検出戦略を含むフレームワークを提供し、今後の研究と開発の基盤を築くことを目指す。 Comment

LLMs Will Always Hallucinate, and We Need to Live With This, Sourav Banerjee+, arXiv'24

Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2024-12-09 GPT Summary- 大規模言語モデル（LLM）の幻覚は偶発的なエラーではなく、これらのモデルの基本的な構造から生じる避けられない特徴であると主張。アーキテクチャやデータセットの改善では幻覚を排除できないことを示し、各プロセス段階で幻覚が生成される確率が存在することを分析。新たに「構造的幻覚」という概念を導入し、幻覚の数学的確実性を確立することで、完全な軽減は不可能であると論じる。

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N_A, EMNLP'24

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-09-01 GPT Summary- 大規模言語モデルはファインチューニングを通じて新しい事実情報に遭遇するが、既存の知識を活用する能力に影響を与える。研究では、閉じた書籍のQAを用いて新しい知識を導入するファインチューニング例の割合を変化させた結果、モデルは新しい知識を学習するのに苦労し、幻覚する傾向が増加することが示された。これにより、ファインチューニングによる新しい知識の導入のリスクが明らかになり、モデルは事前学習を通じて知識を獲得し、ファインチューニングはその利用を効率化することが支持される。 Comment

pre-training時に獲得されていない情報を用いてLLMのalignmentを実施すると、知識がない状態で学習データを正しく予測できるように学習されてしまうため、事実に基づかない回答をする（つまりhallucination）ように学習されてしまう、といったことを調査している模様。

>新しい知識を導入するファインチューニング例は、モデルの知識と一致する例よりもはるかに遅く学習されます。しかし、新しい知識を持つ例が最終的に学習されるにつれて、モデルの幻覚する傾向が線形に増加することも発見しました。

早々にoverfittingしている。

>大規模言語モデルは主に事前学習を通じて事実知識を取得し、ファインチューニングはそれをより効率的に使用することを教えるという見解を支持しています。

なるほど、興味深い。

下記画像は大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06 より引用

本論文中では、full finetuningによる検証を実施しており、LoRAのようなAdapterを用いたテクニックで検証はされていない。LoRAではもともとのLLMのパラメータはfreezeされるため、異なる挙動となる可能性がある。特にLoRAが新しい知識を獲得可能なことが示されれば、LoRA AdapterをもともとのLLMに付け替えるだけで、異なる知識を持ったLLMを運用可能になるため、インパクトが大きいと考えられる。もともとこういった思想は LoRA Hubを提唱する研究などの頃からあった気がするが、AdapterによってHallucination/overfittingを防ぎながら、新たな知識を獲得できることを示した研究はあるのだろうか？

参考:

Loading…

LoRAの場合については

- LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR'24
- Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24

も参照のこと。

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, S. M Towhidul Islam Tonmoy+, N_A, arXiv'24

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel Issue Date: 2024-01-24 GPT Summary- 要約：本論文では、大規模言語モデル（LLMs）における幻覚の問題について調査し、その軽減策について紹介しています。LLMsは強力な言語生成能力を持っていますが、根拠のない情報を生成する傾向があります。この問題を解決するために、Retrieval Augmented Generation、Knowledge Retrieval、CoNLI、CoVeなどの技術が開発されています。さらに、データセットの利用やフィードバックメカニズムなどのパラメータに基づいてこれらの方法を分類し、幻覚の問題に取り組むためのアプローチを提案しています。また、これらの技術に関連する課題や制約についても分析し、将来の研究に向けた基盤を提供しています。

[Paper Note] Chain-of-Verification Reduces Hallucination in Large Language Models, Shehzaad Dhuliawala+, N_A, ACL'24

Paper/Blog Link My Issue
#NLP #LanguageModel #QuestionAnswering #Chain-of-Thought #Prompting #ACL #Selected Papers/Blogs #Verification Issue Date: 2023-09-30 GPT Summary- 私たちは、言語モデルが根拠のない情報を生成する問題に取り組んでいます。Chain-of-Verification（CoVe）メソッドを開発し、モデルが回答を作成し、検証し、最終的な回答を生成するプロセスを経ることで、幻想を減少させることができることを実験で示しました。 Comment

# 概要
ユーザの質問から、Verificationのための質問をplanningし、質問に対して独立に回答を得たうえでオリジナルの質問に対するaggreementを確認し、最終的に生成を実施するPrompting手法

# 評価
## dataset
- 全体を通じてclosed-bookの設定で評価
- Wikidata
- Wikipedia APIから自動生成した「“Who are some [Profession]s who were born in [City]?”」に対するQA pairs
- Goldはknowledge baseから取得
- 全56 test questions
- Gold Entityが大体600程度ありLLMは一部しか回答しないので、precisionで評価
- Wiki category list
- QUEST datasetを利用 [Paper Note] QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, arXiv'23, 2023.05

- 回答にlogical operationが不要なものに限定して頭に"Name some"をつけて質問を生成
- "Name some Mexican animated horror films" or "Name some Endemic orchids of Vietnam"
- 8個の回答を持つ55 test questionsを作成
- MultiSpanQA
- Reading Comprehensionに関するBenchmark dataset
- 複数の独立した回答（回答は連続しないスパンから回答が抽出される）から構成される質問で構成
- 特に、今回はclosed-book setting で実施
- すなわち、与えられた質問のみから回答しなければならず、知っている知識が問われる問題
- 418のtest questsionsで、各回答に含まれる複数アイテムのspanが3 token未満となるようにした
- QA例:
- Q: Who invented the first printing press and in what year?
- A: Johannes Gutenberg, 1450.
# 評価結果
提案手法には、verificationの各ステップでLLMに独立したpromptingをするかなどでjoint, 2-step, Factored, Factor+Revisedの4種類のバリエーションがあることに留意。
- joint: 全てのステップを一つのpromptで実施
- 2-stepは2つのpromptに分けて実施
- Factoredは各ステップを全て異なるpromptingで実施
- Factor+Revisedは異なるpromptで追加のQAに対するcross-checkをかける手法

結果を見ると、CoVEでhallucinationが軽減（というより、モデルが持つ知識に基づいて正確に回答できるサンプルの割合が増えるので実質的にhallucinationが低減したとみなせる）され、特にjointよりも2-step, factoredの方が高い性能を示すことがわかる。

[Paper Note] SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models, Potsawee Manakul+, EMNLP'23, 2023.03

Paper/Blog Link My Issue
#NLP #LanguageModel #EMNLP #Selected Papers/Blogs Issue Date: 2025-09-24 GPT Summary- SelfCheckGPTは、外部データベースなしでLLMの応答をファクトチェックするためのサンプリングベースのアプローチを提案。サンプリングされた応答が一貫した事実を含む場合、知識があると判断し、幻覚された事実では矛盾が生じる可能性が高い。実験により、非事実的および事実的な文の検出、文章のランク付けが可能であることを示し、高いAUC-PRスコアと相関スコアを達成。 Comment

openreview: https://openreview.net/forum?id=RwzFNbJ3Ez

Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #NeurIPS #read-later #ActivationSteering/ITI #Probing #Trustfulness #Selected Papers/Blogs Issue Date: 2025-05-09 GPT Summary- Inference-Time Intervention (ITI)を提案し、LLMsの真実性を向上させる技術を紹介。ITIは推論中にモデルの活性化を調整し、LLaMAモデルの性能をTruthfulQAベンチマークで大幅に改善。Alpacaモデルでは真実性が32.5%から65.1%に向上。真実性と有用性のトレードオフを特定し、介入の強度を調整する方法を示す。ITIは低コストでデータ効率が高く、数百の例で真実の方向性を特定可能。LLMsが虚偽を生成しつつも真実の内部表現を持つ可能性を示唆。 Comment

Inference Time Interventionを提案した研究。Attention Headに対して線形プロービング[^1]を実施し、真実性に関連するであろうHeadをtopKで特定できるようにし、headの出力に対し真実性を高める方向性のベクトルvを推論時に加算することで（＝intervention）、モデルの真実性を高める。vは線形プロービングによって学習された重みを使う手法と、正答と誤答の活性化の平均ベクトルを計算しその差分をvとする方法の二種類がある。後者の方が性能が良い。topKを求める際には、線形プロービングをしたモデルのvalidation setでの性能から決める。Kとαはハイパーパラメータである。

[^1]: headのrepresentationを入力として受け取り、線形モデルを学習し、線形モデルの2値分類性能を見ることでheadがどの程度、プロービングの学習に使ったデータに関する情報を保持しているかを測定する手法

日本語解説スライド: https://www.docswell.com/s/DeepLearning2023/Z38P8D-2024-06-20-131813#p1

これは相当汎用的に使えそうな話だから役に立ちそう

A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, Lei Huang+, N_A, arXiv'23

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel Issue Date: 2023-11-10 GPT Summary- LLMsの出現はNLPにおける重要な進歩をもたらしているが、幻覚を生じることがあり、その信頼性に懸念がある。本調査では、LLMの幻覚に関する最近の進展について包括的に概説し、幻覚の要因や検出手法、軽減アプローチについて紹介する。また、現在の制約や将来の研究方向についても分析する。 Comment

Hallucinationを現象ごとに分類したSurveyとして A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N/A, arXiv'23 もある

Surveyの内容。必要に応じて参照すべし。

A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N_A, arXiv'23

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel Issue Date: 2023-09-30 GPT Summary- 本研究では、大規模ファウンデーションモデル（LFMs）におけるホールシネーションの問題に焦点を当て、その現象を分類し、評価基準を確立するとともに、既存の戦略を検討し、今後の研究の方向性についても議論しています。 Comment

Hallucinationを現象ごとに分類し、Hallucinationの程度の評価をする指標や、Hallucinationを軽減するための既存手法についてまとめられているらしい。

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models, Yung-Sung Chuang+, N_A, arXiv'23

Paper/Blog Link My Issue
#NLP #LanguageModel #Factuality Issue Date: 2023-09-13 GPT Summary- 我々は、事前学習済みの大規模言語モデル（LLMs）における幻覚を軽減するためのシンプルなデコーディング戦略を提案する。このアプローチは、ロジットの差異を対比することで次のトークンの分布を得るもので、事実知識をより明確に示し、誤った事実の生成を減らすことができる。このアプローチは、複数の選択課題やオープンエンドの生成課題において真実性を向上させることができることが示されている。 Comment

【以下、WIP状態の論文を読んでいるため今後内容が変化する可能性あり】

# 概要

Transformer Layerにおいて、factual informationが特定のレイヤーに局所化するという現象を観測しており、それを活用しよりFactual Consistencyのある生成をします、という研究

あるテキストを生成するときの単語の生成確率の分布を可視化。final layer (N=32だと思われる)との間のJensen-shanon Divergence (JSD) で可視化している。が、図を見るとJSDの値域は[0, 1]のはずなのにこれを逸脱しているので一体どういう計算をしているのか。。。

図の説明としては論文中では2つのパターンがあると言及しており

1. 重要な固有表現や日付（Wole Soyinka, 1986など; Factual Knowledgeが必要なもの）は、higher layerでも高い値となっており、higher-layerにおいてpredictionの内容を変えている（重要な情報がここでinjectionされている）

2. 機能語や、questionからの単語のコピー（Nigerian, Nobel Prize など）のような "easy" なtokenは既にmiddle of layersで既にJSDの値が小さく、early layerの時点で出力することが既に決定されている

# 手法概要

ここからの考察としては、重要な事実に関する情報はfinal layerの方で分布が変化する傾向にあり、低layerの方ではそうではないぽいので、final layerと分布が似ているがFactual Informationがまだあまり顕著に生成確率が高くなっていないlayer（pre mature layer）との対比をとることで、生成されるべきFactual Informationがわかるのではないか、という前提の元提案手法が組まれている。手法としては、final layerとのJSDが最大となるようなlayerを一つ選択する、というものになっているが、果たしてこの選択方法で前述の気持ちが実現できているのか？という気は少しする。

[Paper Note] How Language Model Hallucinations Can Snowball, Muru Zhang+, arXiv'23, 2023.05

Paper/Blog Link My Issue
#NLP #LanguageModel #ICML #Selected Papers/Blogs #KeyPoint Notes #needs-revision Issue Date: 2023-06-16 GPT Summary- 言語モデルは実用的な応用においてハルシネーションのリスクを伴い、この現象は知識ギャップに起因することが多い。興味深いことに、モデルは誤りを認識しながらも偽の主張を出力する場合がある。「ハルシネーション・スノーボール現象」として知られるこの現象では、初期の過ちに固執することでさらなる誤りを招く。研究では、ChatGPTとGPT-4がそれぞれ67%および87%の誤りを特定できることが確認された。 Comment

LLMによるhallucinationは、単にLLMの知識不足によるものだけではなく、LLMが以前に生成したhallucinationを正当化するために、誤った出力を生成してしまうという仮説を提起し、この仮説を検証した研究。これをhallucination snowballと呼ぶ。これにより、LLMを訓練する際に、事実に対する正確さを犠牲にして、流暢性と一貫性を優先し言語モデルを訓練するリスクを示唆している。

[Paper Note] TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, arXiv'23, 2023.05

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #Factuality #One-Line Notes Issue Date: 2023-05-20 GPT Summary- TrueTeacherは、多様なモデル生成要約をLLMで注釈し、実際の生成要約に基づいた合成データを生成するアプローチである。従来の手法とは異なり、手作業での要約に依存せず、多言語対応も可能。実験結果は、TrueTeacherを使用して訓練したstudentモデルが他の最先端モデルやLLM教師を大幅に上回ることを示し、ドメインシフトに対する堅牢性も確認された。加えて、140万例の大規模合成データセットと訓練したチェックポイントも公開。 Comment

Factual Consistency Evaluationに関する研究。オリジナルのテキストに対して、様々な規模の言語モデルを用いて要約を生成。生成された要約に対してfactual informationが正しく含まれているかをラベル付けする方法を提案。

Reducing Quantity Hallucinations in Abstractive Summarization, Zheng Zhao+, N_A, EMNLP'20

Paper/Blog Link My Issue
#DocumentSummarization #NLP Issue Date: 2023-08-16 GPT Summary- Hermanシステムは、抽象的な要約において幻覚を回避するために、数量エンティティを認識し、元のテキストでサポートされている数量用語を持つ要約を上位にランク付けするアプローチを提案しています。実験結果は、このアプローチが高い適合率と再現率を持ち、F$_1$スコアが向上することを示しています。また、上位にランク付けされた要約が元の要約よりも好まれることも示されています。 Comment

数量に関するhallucinationを緩和する要約手法

Object hallucination in image captioning, Rohbach+, EMNLP'18

Paper/Blog Link My Issue
#NLP #ImageCaptioning Issue Date: 2023-08-16 GPT Summary- 現代の画像キャプションモデルは、オブジェクトの幻覚を生じる傾向がある。本研究では、新しい画像関連性の評価指標を提案し、モデルのアーキテクチャや学習目標が幻覚にどのように寄与するかを評価する。さらに、言語の先入観によるエラーが幻覚を引き起こすことも示された。

Why Language Models Hallucinate, Kalai+, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-06 Comment

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

Hallucination Leaderboard, 2023

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Factuality #Repository Issue Date: 2023-11-14 Comment

1000個の短いドキュメントに対して、事実情報のみを用いて要約を生成させ、要約結果と原文書のFactual consistencyを別に訓練したモデルで測定して評価してリーダーボードを作成している。

Claude2よりLLaMA2の方が性能が良いのが面白いし、Palmの性能があまり良くない。

元ツイート:

Loading…

生成AIが抱えるリスクと対策, LYCorp‘23

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Alignment #GenerativeAI #Blog Issue Date: 2023-11-03 Comment

この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ