Hallucination
Issue Date: 2025-10-02 [Paper Note] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning, Zhepei Wei+, arXiv'25, 2025.09 GPT Summary- 本研究では、LLMsの真実性を最適化するための強化学習フレームワークTruthRLを提案。三値報酬を用いて正しい回答、幻覚、abstentionを区別し、不確実な場合には控えることを促進。実験により、TruthRLは幻覚を28.9%減少させ、真実性を21.1%向上させることが確認され、従来の手法よりも優れた性能を示した。正確さと真実性のバランスを取る重要性が強調される。 Comment
元ポスト:
一般的に利用されるBinary Reward(回答が正しければ1, そうでなければ-1)ではなく、Ternary Reward
- 回答が正しければ1
- 不確実であれば0
- 誤りであれば-1
を利用しGRPOすることで、hallucinationが向上し、trustfulnessも改善する、という話な模様
#Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #SmallModel
Issue Date: 2025-10-02 [Paper Note] HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation, Loris Bergeron+, arXiv'25, 2025.10 GPT Summary- HalluGuardは、LLMsの幻覚を軽減するための4Bパラメータの小型推論モデルで、文書-主張ペアを分類し、証拠に基づいた正当化を生成します。FineWebから派生した合成データセットと、好みベースのファインチューニングを用いて、RAGTruthサブセットで84.0%のバランス精度を達成し、MiniCheckやGranite Guardianと同等の性能を示します。全体のベンチマークでは75.7%のバランス精度を達成し、GPT-4oと同等の性能を持ちます。HalluGuardとデータセットは公開予定です。 Comment
元ポスト:
Document xとclaim cがgivenなときに、それがgroundingされているか否かを判定し、justificationをするテキストをxを参照しながら生成するようなSLMな模様。モデルとデータはまだ未公開とのこと。
#Analysis #Pocket #NLP #LanguageModel #Evaluation #TMLR #read-later
Issue Date: 2025-09-18 [Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08 GPT Summary- 大規模言語モデル(LLMs)の類似性を理解するために、想像上の質問応答(IQA)という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment
openreview: https://openreview.net/forum?id=NUXpBMtDYs
元ポスト:
元ポスト:
ポイント解説:
#Survey #Pocket #NLP #LanguageModel Issue Date: 2025-08-08 [Paper Note] A comprehensive taxonomy of hallucinations in Large Language Models, Manuel Cossio, arXiv'25 GPT Summary- LLMのハルシネーションに関する包括的な分類法を提供し、その本質的な避けられなさを提唱。内因的および外因的な要因、事実誤認や不整合などの具体的な現れを分析。根本的な原因や認知的要因を検討し、評価基準や軽減戦略を概説。今後は、信頼性のある展開のために検出と監視に焦点を当てる必要があることを強調。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #ActivationSteering/ITI #Trustfulness Issue Date: 2025-07-26 [Paper Note] GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs, Duy Nguyen+, arXiv'25 GPT Summary- GrAInSは、LLMsおよびVLMsの推論時に内部活性を調整する新しいステアリング手法で、固定された介入ベクトルに依存せず、トークンの因果的影響を考慮します。統合勾配を用いて、出力への寄与に基づき重要なトークンを特定し、望ましい行動への変化を捉えるベクトルを構築します。これにより、再訓練なしでモデルの挙動を細かく制御でき、実験ではファインチューニングや既存手法を上回る成果を示しました。具体的には、TruthfulQAで精度を13.22%向上させ、MMHal-Benchの幻覚率を低下させ、SPA-VLでのアライメント勝率を改善しました。 Comment
元ポスト:
既存のsteering手法は、positive/negativeなサンプルからの差分で単一方向のベクトルを算出し、すべてのトークンに足し合わせるが、本手法はそこからさらにpositive/negativeな影響を与えるトークンレベルにまで踏み込み、negativeなベクトルとpositiveなベクトルの双方を用いて、negative->positive方向のベクトルを算出してsteeringに活用する方法っぽい?
#Pocket #NLP #LanguageModel #ICML #OptimalTransport Issue Date: 2025-06-14 [Paper Note] Steer LLM Latents for Hallucination Detection, Seongheon Park+, ICML'25 GPT Summary- LLMの幻覚問題に対処するため、Truthfulness Separator Vector(TSV)を提案。TSVは、LLMの表現空間を再構築し、真実と幻覚の出力を分離する軽量な指向ベクトルで、モデルのパラメータを変更せずに機能。二段階のフレームワークで、少数のラベル付き例からTSVを訓練し、ラベルのない生成物を拡張。実験により、TSVは最小限のラベル付きデータで高いパフォーマンスを示し、実世界のアプリケーションにおける実用的な解決策を提供。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=UMqNQEPNT3¬eId=mAbrf36RHa
#Analysis #MachineLearning #Pocket #NLP #LanguageModel #Alignment #ICLR #DPO #Repetition Issue Date: 2025-04-18 Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化(DPO)における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment
元ポスト:
解説ポスト:
#Pocket #NLP #LanguageModel #LLMAgent Issue Date: 2025-04-11 Hallucination Mitigation using Agentic AI Natural Language-Based Frameworks, Diego Gosmar+, arXiv'25 GPT Summary- 本研究では、複数のAIエージェントを調整し、自然言語処理を活用して幻覚を軽減する方法を探求。300以上の幻覚を誘発するプロンプトを用いたパイプラインを設計し、出力を第二および第三レベルのエージェントがレビュー。新たに設計したKPIで幻覚スコアを評価し、OVONフレームワークを通じてエージェント間で文脈情報を転送。結果として、相互運用可能なエージェントを活用することで幻覚の軽減に成功し、AIへの信頼を強化することが示された。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #ICLR Issue Date: 2024-10-20 LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations, Hadas Orgad+, N_A, ICLR'25 GPT Summary- LLMsは「幻覚」と呼ばれるエラーを生成するが、内部状態が真実性に関する情報をエンコードしていることが示されている。本研究では、真実性情報が特定のトークンに集中していることを発見し、これを利用することでエラー検出性能が向上することを示す。しかし、エラーディテクターはデータセット間で一般化に失敗し、真実性のエンコーディングは普遍的ではないことが明らかになる。また、内部表現を用いてエラーの種類を予測し、特化した緩和戦略の開発を促進する。さらに、内部エンコーディングと外部の振る舞いとの不一致が存在し、正しい答えをエンコードしていても誤った答えを生成することがある。これにより、LLMのエラー理解が深まり、今後の研究に寄与する。 Comment
特定のトークンがLLMのtrustfulnessに集中していることを実験的に示し、かつ内部でエンコードされたrepresentationは正しい答えのものとなっているのに、生成結果に誤りが生じるような不整合が生じることも示したらしい
openreview: https://openreview.net/forum?id=KRnsX5Em3W
#Pocket #NLP #LanguageModel #Evaluation #Factuality #COLM Issue Date: 2023-07-27 [Paper Note] FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios, I-Chun Chern+, COLM'25, 2023.07 GPT Summary- 生成的事前学習モデルによるテキスト合成は進展したが、事実誤認の特定には課題が残る。特に、生成モデルによる事実誤認のリスク増加、長文化による粒度の欠如、明示的証拠の不足が問題である。これらを解決するために、タスクやドメインに依存しない事実誤認検出フレームワークFacToolを提案。知識ベースのQA、コード生成、数学的推論、科学文献レビューの4つのタスクで有効性を実証し、コードは公開されている。 Comment
openreview: https://openreview.net/forum?id=hJkQL9VtWT#discussion
#Survey #NLP #LanguageModel #MultiModal Issue Date: 2025-09-24 A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models, Sahoo+, EMNLP'24 Findings GPT Summary- 基盤モデル(FMs)の多様なドメインにおける進展は顕著だが、特に高リスクなアプリケーションでは幻覚的な出力が問題となる。本調査論文は、テキスト、画像、動画、音声におけるFMsの幻覚の問題を特定し、軽減策の最近の進展をまとめる。幻覚の定義、分類、検出戦略を含むフレームワークを提供し、今後の研究と開発の基盤を築くことを目指す。 Comment
#Pocket #NLP #LanguageModel Issue Date: 2024-12-09 LLMs Will Always Hallucinate, and We Need to Live With This, Sourav Banerjee+, arXiv'24 GPT Summary- 大規模言語モデル(LLM)の幻覚は偶発的なエラーではなく、これらのモデルの基本的な構造から生じる避けられない特徴であると主張。アーキテクチャやデータセットの改善では幻覚を排除できないことを示し、各プロセス段階で幻覚が生成される確率が存在することを分析。新たに「構造的幻覚」という概念を導入し、幻覚の数学的確実性を確立することで、完全な軽減は不可能であると論じる。 #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-09-01 Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N_A, EMNLP'24 GPT Summary- 大規模言語モデルはファインチューニングを通じて新しい事実情報に遭遇するが、既存の知識を活用する能力に影響を与える。研究では、閉じた書籍のQAを用いて新しい知識を導入するファインチューニング例の割合を変化させた結果、モデルは新しい知識を学習するのに苦労し、幻覚する傾向が増加することが示された。これにより、ファインチューニングによる新しい知識の導入のリスクが明らかになり、モデルは事前学習を通じて知識を獲得し、ファインチューニングはその利用を効率化することが支持される。 Comment
pre-training時に獲得されていない情報を用いてLLMのalignmentを実施すると、知識がない状態で学習データを正しく予測できるように学習されてしまうため、事実に基づかない回答をする(つまりhallucination)ように学習されてしまう、といったことを調査している模様。
>新しい知識を導入するファインチューニング例は、モデルの知識と一致する例よりもはるかに遅く学習されます。しかし、新しい知識を持つ例が最終的に学習されるにつれて、モデルの幻覚する傾向が線形に増加することも発見しました。
早々にoverfittingしている。
>大規模言語モデルは主に事前学習を通じて事実知識を取得し、ファインチューニングはそれをより効率的に使用することを教えるという見解を支持しています。
なるほど、興味深い。
下記画像は 大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06
より引用
本論文中では、full finetuningによる検証を実施しており、LoRAのようなAdapterを用いたテクニックで検証はされていない。LoRAではもともとのLLMのパラメータはfreezeされるため、異なる挙動となる可能性がある。特にLoRAが新しい知識を獲得可能なことが示されれば、LoRA AdapterをもともとのLLMに付け替えるだけで、異なる知識を持ったLLMを運用可能になるため、インパクトが大きいと考えられる。もともとこういった思想は LoRA Hubを提唱する研究などの頃からあった気がするが、AdapterによってHallucination/overfittingを防ぎながら、新たな知識を獲得できることを示した研究はあるのだろうか?
参考:
LoRAの場合については
- LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR'24
- Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24
も参照のこと。
#Survey #Pocket #NLP #LanguageModel Issue Date: 2024-01-24 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, S. M Towhidul Islam Tonmoy+, N_A, arXiv'24 GPT Summary- 要約:本論文では、大規模言語モデル(LLMs)における幻覚の問題について調査し、その軽減策について紹介しています。LLMsは強力な言語生成能力を持っていますが、根拠のない情報を生成する傾向があります。この問題を解決するために、Retrieval Augmented Generation、Knowledge Retrieval、CoNLI、CoVeなどの技術が開発されています。さらに、データセットの利用やフィードバックメカニズムなどのパラメータに基づいてこれらの方法を分類し、幻覚の問題に取り組むためのアプローチを提案しています。また、これらの技術に関連する課題や制約についても分析し、将来の研究に向けた基盤を提供しています。 #NLP #LanguageModel #QuestionAnswering #Chain-of-Thought #Prompting #ACL #Selected Papers/Blogs #Verification Issue Date: 2023-09-30 [Paper Note] Chain-of-Verification Reduces Hallucination in Large Language Models, Shehzaad Dhuliawala+, N_A, ACL'24 GPT Summary- 私たちは、言語モデルが根拠のない情報を生成する問題に取り組んでいます。Chain-of-Verification(CoVe)メソッドを開発し、モデルが回答を作成し、検証し、最終的な回答を生成するプロセスを経ることで、幻想を減少させることができることを実験で示しました。 Comment
# 概要
ユーザの質問から、Verificationのための質問をplanningし、質問に対して独立に回答を得たうえでオリジナルの質問に対するaggreementを確認し、最終的に生成を実施するPrompting手法
# 評価
## dataset
- 全体を通じてclosed-bookの設定で評価
- Wikidata
- Wikipedia APIから自動生成した「“Who are some [Profession]s who were born in [City]?”」に対するQA pairs
- Goldはknowledge baseから取得
- 全56 test questions
- Gold Entityが大体600程度ありLLMは一部しか回答しないので、precisionで評価
- Wiki category list
- QUEST datasetを利用 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N/A, ACL'23
- 回答にlogical operationが不要なものに限定して頭に"Name some"をつけて質問を生成
- "Name some Mexican animated horror films" or "Name some Endemic orchids of Vietnam"
- 8個の回答を持つ55 test questionsを作成
- MultiSpanQA
- Reading Comprehensionに関するBenchmark dataset
- 複数の独立した回答(回答は連続しないスパンから回答が抽出される)から構成される質問で構成
- 特に、今回はclosed-book setting で実施
- すなわち、与えられた質問のみから回答しなければならず、知っている知識が問われる問題
- 418のtest questsionsで、各回答に含まれる複数アイテムのspanが3 token未満となるようにした
- QA例:
- Q: Who invented the first printing press and in what year?
- A: Johannes Gutenberg, 1450.
# 評価結果
提案手法には、verificationの各ステップでLLMに独立したpromptingをするかなどでjoint, 2-step, Factored, Factor+Revisedの4種類のバリエーションがあることに留意。
- joint: 全てのステップを一つのpromptで実施
- 2-stepは2つのpromptに分けて実施
- Factoredは各ステップを全て異なるpromptingで実施
- Factor+Revisedは異なるpromptで追加のQAに対するcross-checkをかける手法
結果を見ると、CoVEでhallucinationが軽減(というより、モデルが持つ知識に基づいて正確に回答できるサンプルの割合が増えるので実質的にhallucinationが低減したとみなせる)され、特にjointよりも2-step, factoredの方が高い性能を示すことがわかる。
#Pocket #NLP #LanguageModel #EMNLP #Selected Papers/Blogs Issue Date: 2025-09-24 [Paper Note] SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models, Potsawee Manakul+, EMNLP'23, 2023.03 GPT Summary- SelfCheckGPTは、外部データベースなしでLLMの応答をファクトチェックするためのサンプリングベースのアプローチを提案。サンプリングされた応答が一貫した事実を含む場合、知識があると判断し、幻覚された事実では矛盾が生じる可能性が高い。実験により、非事実的および事実的な文の検出、文章のランク付けが可能であることを示し、高いAUC-PRスコアと相関スコアを達成。 Comment
openreview: https://openreview.net/forum?id=RwzFNbJ3Ez
#MachineLearning #Pocket #NLP #LanguageModel #NeurIPS #read-later #ActivationSteering/ITI #Probing #Trustfulness #Selected Papers/Blogs Issue Date: 2025-05-09 Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 GPT Summary- Inference-Time Intervention (ITI)を提案し、LLMsの真実性を向上させる技術を紹介。ITIは推論中にモデルの活性化を調整し、LLaMAモデルの性能をTruthfulQAベンチマークで大幅に改善。Alpacaモデルでは真実性が32.5%から65.1%に向上。真実性と有用性のトレードオフを特定し、介入の強度を調整する方法を示す。ITIは低コストでデータ効率が高く、数百の例で真実の方向性を特定可能。LLMsが虚偽を生成しつつも真実の内部表現を持つ可能性を示唆。 Comment
Inference Time Interventionを提案した研究。Attention Headに対して線形プロービング[^1]を実施し、真実性に関連するであろうHeadをtopKで特定できるようにし、headの出力に対し真実性を高める方向性のベクトルvを推論時に加算することで(=intervention)、モデルの真実性を高める。vは線形プロービングによって学習された重みを使う手法と、正答と誤答の活性化の平均ベクトルを計算しその差分をvとする方法の二種類がある。後者の方が性能が良い。topKを求める際には、線形プロービングをしたモデルのvalidation setでの性能から決める。Kとαはハイパーパラメータである。
[^1]: headのrepresentationを入力として受け取り、線形モデルを学習し、線形モデルの2値分類性能を見ることでheadがどの程度、プロービングの学習に使ったデータに関する情報を保持しているかを測定する手法
日本語解説スライド:
https://www.docswell.com/s/DeepLearning2023/Z38P8D-2024-06-20-131813#p1
これは相当汎用的に使えそうな話だから役に立ちそう
#Survey #Pocket #NLP #LanguageModel Issue Date: 2023-11-10 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, Lei Huang+, N_A, arXiv'23 GPT Summary- LLMsの出現はNLPにおける重要な進歩をもたらしているが、幻覚を生じることがあり、その信頼性に懸念がある。本調査では、LLMの幻覚に関する最近の進展について包括的に概説し、幻覚の要因や検出手法、軽減アプローチについて紹介する。また、現在の制約や将来の研究方向についても分析する。 Comment
Hallucinationを現象ごとに分類したSurveyとして A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N/A, arXiv'23 もある
Surveyの内容。必要に応じて参照すべし。
#Survey #Pocket #NLP #LanguageModel Issue Date: 2023-09-30 A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N_A, arXiv'23 GPT Summary- 本研究では、大規模ファウンデーションモデル(LFMs)におけるホールシネーションの問題に焦点を当て、その現象を分類し、評価基準を確立するとともに、既存の戦略を検討し、今後の研究の方向性についても議論しています。 Comment
Hallucinationを現象ごとに分類し、Hallucinationの程度の評価をする指標や、Hallucinationを軽減するための既存手法についてまとめられているらしい。
#Pocket #NLP #LanguageModel #Factuality Issue Date: 2023-09-13 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models, Yung-Sung Chuang+, N_A, arXiv'23 GPT Summary- 我々は、事前学習済みの大規模言語モデル(LLMs)における幻覚を軽減するためのシンプルなデコーディング戦略を提案する。このアプローチは、ロジットの差異を対比することで次のトークンの分布を得るもので、事実知識をより明確に示し、誤った事実の生成を減らすことができる。このアプローチは、複数の選択課題やオープンエンドの生成課題において真実性を向上させることができることが示されている。 Comment
【以下、WIP状態の論文を読んでいるため今後内容が変化する可能性あり】
# 概要
Transformer Layerにおいて、factual informationが特定のレイヤーに局所化するという現象を観測しており、それを活用しよりFactual Consistencyのある生成をします、という研究
あるテキストを生成するときの単語の生成確率の分布を可視化。final layer (N=32だと思われる)との間のJensen-shanon Divergence (JSD) で可視化している。が、図を見るとJSDの値域は[0, 1]のはずなのにこれを逸脱しているので一体どういう計算をしているのか。。。
図の説明としては論文中では2つのパターンがあると言及しており
1. 重要な固有表現や日付(Wole Soyinka, 1986など; Factual Knowledgeが必要なもの)は、higher layerでも高い値となっており、higher-layerにおいてpredictionの内容を変えている(重要な情報がここでinjectionされている)
2. 機能語や、questionからの単語のコピー(Nigerian, Nobel Prize など)のような "easy" なtokenは既にmiddle of layersで既にJSDの値が小さく、early layerの時点で出力することが既に決定されている
# 手法概要
ここからの考察としては、重要な事実に関する情報はfinal layerの方で分布が変化する傾向にあり、低layerの方ではそうではないぽいので、final layerと分布が似ているがFactual Informationがまだあまり顕著に生成確率が高くなっていないlayer(pre mature layer)との対比をとることで、生成されるべきFactual Informationがわかるのではないか、という前提の元提案手法が組まれている。手法としては、final layerとのJSDが最大となるようなlayerを一つ選択する、というものになっているが、果たしてこの選択方法で前述の気持ちが実現できているのか?という気は少しする。
#NLP #LanguageModel Issue Date: 2023-06-16 How Language Model Hallucinations Can Snowball, Muru Zhang+, N_A, arXiv'23 GPT Summary- 言語モデルを使用する際のリスクとして、幻覚があることが指摘されている。この幻覚は、LMの知識不足によるものだけでなく、以前に生成された幻覚を正当化するために、LMが誤った主張を出力することもあるという仮説が立てられている。ChatGPTとGPT-4は、誤った回答を示し、幻覚のスノーボール効果により、より多くの誤りが生じることがある。また、誤りを含む質問応答データセットが構築され、LMが自分自身の誤りを識別できることも示された。 Comment
LLMによるhallucinationは、単にLLMの知識不足によるものだけではなく、LLMが以前に生成したhallucinationを正当化するために、誤った出力を生成してしまうという仮説を提起し、この仮説を検証した研究。これをhallucination snowballと呼ぶ。これにより、LLMを訓練する際に、事実に対する正確さを犠牲にして、流暢性と一貫性を優先し言語モデルを訓練するリスクを示唆している。
#NLP #Dataset #Evaluation Issue Date: 2023-05-20 TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N_A, arXiv'23 GPT Summary- 自然言語推論(NLI)モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル(LLMs)は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。 Comment
Factual Consistency Evaluationに関する研究。オリジナルのテキストに対して、様々な規模の言語モデルを用いて要約を生成。生成された要約に対してfactual informationが正しく含まれているかをラベル付けする方法を提案。
#DocumentSummarization #Pocket #NLP Issue Date: 2023-08-16 Reducing Quantity Hallucinations in Abstractive Summarization, Zheng Zhao+, N_A, EMNLP'20 GPT Summary- Hermanシステムは、抽象的な要約において幻覚を回避するために、数量エンティティを認識し、元のテキストでサポートされている数量用語を持つ要約を上位にランク付けするアプローチを提案しています。実験結果は、このアプローチが高い適合率と再現率を持ち、F$_1$スコアが向上することを示しています。また、上位にランク付けされた要約が元の要約よりも好まれることも示されています。 Comment
数量に関するhallucinationを緩和する要約手法
#NLP #ImageCaptioning Issue Date: 2023-08-16 Object hallucination in image captioning, Rohbach+, EMNLP'18 GPT Summary- 現代の画像キャプションモデルは、オブジェクトの幻覚を生じる傾向がある。本研究では、新しい画像関連性の評価指標を提案し、モデルのアーキテクチャや学習目標が幻覚にどのように寄与するかを評価する。さらに、言語の先入観によるエラーが幻覚を引き起こすことも示された。 #Article #Pocket #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-06 Why Language Models Hallucinate, Kalai+, 2025.09 Comment
著者ポスト:
解説:
所見:
#Article #NLP #LanguageModel #Factuality #Repository Issue Date: 2023-11-14 Hallucination Leaderboard, 2023 Comment
1000個の短いドキュメントに対して、事実情報のみを用いて要約を生成させ、要約結果と原文書のFactual consistencyを別に訓練したモデルで測定して評価してリーダーボードを作成している。
Claude2よりLLaMA2の方が性能が良いのが面白いし、Palmの性能があまり良くない。
元ツイート:
#Article #Tutorial #NLP #LanguageModel #Alignment #GenerativeAI #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment
この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ