Explanation
[Paper Note] Learning to Interpret Weight Differences in Language Models, Avichal Goel+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #One-Line Notes Issue Date: 2025-10-25 GPT Summary- ファインチューニングされた言語モデルの重みの変化を解釈するために、Diff Interpretation Tuning(DIT)を提案。合成されたラベル付きの重みの差を用いてモデルに変更を説明させる。隠れた挙動の報告や知識の要約において、DITが自然言語での正確な説明を可能にすることを示した。 Comment
元ポスト:
weightの更新があった時に、LLM自身がどのような変化があったかをverbalizeできるようにSFTでLoRA Adaptorを学習する話らしい
[Paper Note] A Necessary Step toward Faithfulness: Measuring and Improving Consistency in Free-Text Explanations, Lingjun Zhao+, EMNLP'25, 2025.05
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Faithfulness #EMNLP #Trustfulness Issue Date: 2025-10-15 GPT Summary- 本論文では、AI意思決定における自由形式の説明の信頼性を測定するために、予測-説明整合性の新しい測定方法を提案。大規模言語モデルによる説明の62%以上が整合性を欠いていることを示し、最適化により整合性が43.1%から292.3%改善されることを確認。また、整合性の最適化により説明の信頼性が最大9.7%向上することを示した。 Comment
元ポスト:
Hal Daume氏がlast author
INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23
Paper/Blog Link My Issue
#NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #EMNLP #PostTraining Issue Date: 2024-01-25 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment
伝統的なNLGの性能指標の解釈性が低いことを主張する研究
Explainable Recommendation with Personalized Review Retrieval and Aspect Learning, ACL'23
Paper/Blog Link My Issue
#RecommenderSystems #Personalization #review Issue Date: 2023-07-18 GPT Summary- 説明可能な推薦において、テキスト生成の精度向上とユーザーの好みの捉え方の改善を目指し、ERRAモデルを提案。ERRAは追加情報の検索とアスペクト学習を組み合わせることで、より正確で情報量の多い説明を生成することができる。さらに、ユーザーの関心の高いアスペクトを選択することで、関連性の高い詳細なユーザー表現をモデル化し、説明をより説得力のあるものにする。実験結果は、ERRAモデルが最先端のベースラインを上回ることを示している。
Faithfulness Tests for Natural Language Explanations, ACL'23
Paper/Blog Link My Issue
#NaturalLanguageGeneration #NLP #Evaluation #Faithfulness Issue Date: 2023-07-18 GPT Summary- 本研究では、ニューラルモデルの説明の忠実性を評価するための2つのテストを提案しています。1つ目は、カウンターファクチュアルな予測につながる理由を挿入するためのカウンターファクチュアル入力エディタを提案し、2つ目は生成された説明から入力を再構築し、同じ予測につながる頻度をチェックするテストです。これらのテストは、忠実な説明の開発において基本的なツールとなります。
Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv'22
Paper/Blog Link My Issue
#NaturalLanguageGeneration #Pocket #NLP #Dataset #LanguageModel Issue Date: 2023-08-03 GPT Summary- 本研究では、大規模言語モデル(LLMs)を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。 Comment
OpenReview: https://openreview.net/forum?id=GvMuB-YsiK6
データセット(中に存在するパターンの説明)をLLMによって生成させる研究


Explainable AI in Industry, KDD'19
Paper/Blog Link My Issue
#RecommenderSystems #Tutorial #Slide #SIGKDD Issue Date: 2019-08-19
[Paper Note] Generating Personalized Snippets for Web Page Recommender Systems, Akihiko+, WI-IAT'14
Paper/Blog Link My Issue
#PersonalizedDocumentSummarization #RecommenderSystems #NLP #Snippets #PersonalizedGeneration #Personalization #WI Issue Date: 2025-11-27 Comment
ジャーナル(日本語): https://www.jstage.jst.go.jp/article/tjsai/31/5/31_C-G41/_article/-char/en
[Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07
Paper/Blog Link My Issue
#RecommenderSystems #Survey #Selected Papers/Blogs Issue Date: 2018-01-01
Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation Issue Date: 2023-07-14 GPT Summary- 本研究では、説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けの説明の品質を評価する方法について検討しています。従来のSimulatabilityスコアに代わる新しいメトリックを提案し、5つのデータセットと2つのモデルアーキテクチャで評価しました。結果として、提案したメトリックがより客観的な評価を可能にする一方、Simulatabilityは不十分であることが示されました。
Transformers Interpret, 2022
Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #Library #Transformer #Blog Issue Date: 2022-12-01 Comment
transformersのモデルをたった2行追加するだけで、explainableにするライブラリ
基本的にtextとvisionのclassificationをサポートしている模様
text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をoutputしてくれる。
Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial #Selected Papers/Blogs Issue Date: 2019-01-23 Comment
Recommender Systems HandbookのChapter。[Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07
のSurveyと同じ著者による執筆。
推薦のExplanationといえばこの人というイメージ。
D論: http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf