Explanation
Issue Date: 2025-10-25 [Paper Note] Learning to Interpret Weight Differences in Language Models, Avichal Goel+, arXiv'25, 2025.10 GPT Summary- ファインチューニングされた言語モデルの重みの変化を解釈するために、Diff Interpretation Tuning(DIT)を提案。合成されたラベル付きの重みの差を用いてモデルに変更を説明させる。隠れた挙動の報告や知識の要約において、DITが自然言語での正確な説明を可能にすることを示した。 Comment
元ポスト:
weightの更新があった時に、LLM自身がどのような変化があったかをverbalizeできるようにSFTでLoRA Adaptorを学習する話らしい
#Pocket #NLP #LanguageModel #Faithfulness #EMNLP #Trustfulness
Issue Date: 2025-10-15 [Paper Note] A Necessary Step toward Faithfulness: Measuring and Improving Consistency in Free-Text Explanations, Lingjun Zhao+, EMNLP'25, 2025.05 GPT Summary- 本論文では、AI意思決定における自由形式の説明の信頼性を測定するために、予測-説明整合性の新しい測定方法を提案。大規模言語モデルによる説明の62%以上が整合性を欠いていることを示し、最適化により整合性が43.1%から292.3%改善されることを確認。また、整合性の最適化により説明の信頼性が最大9.7%向上することを示した。 Comment
元ポスト:
Hal Daume氏がlast author
#NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #EMNLP #PostTraining
Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment
伝統的なNLGの性能指標の解釈性が低いことを主張する研究
OpenReview: https://openreview.net/forum?id=GvMuB-YsiK6
データセット(中に存在するパターンの説明)をLLMによって生成させる研究


#RecommenderSystems #Tutorial #Slide #SIGKDD Issue Date: 2019-08-19 Explainable AI in Industry, KDD'19 #PersonalizedDocumentSummarization #RecommenderSystems #NLP #Snippets #PersonalizedGeneration #Personalization #WI Issue Date: 2025-11-27 [Paper Note] Generating Personalized Snippets for Web Page Recommender Systems, Akihiko+, WI-IAT'14 GPT Summary- ウェブページ推薦システムのために、ユーザーの興味を反映したパーソナライズされたスニペットを生成する新手法を提案。推薦理由を活用し、最大カバレッジ要約モデルを用いてスニペットを作成。実験結果では、提案手法が従来のパーソナライズされた要約モデルよりも効果的であることが示された。 Comment
ジャーナル(日本語): https://www.jstage.jst.go.jp/article/tjsai/31/5/31_C-G41/_article/-char/en
#RecommenderSystems #Survey #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07 #Article #NLP #LanguageModel #Evaluation Issue Date: 2023-07-14 Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations GPT Summary- 本研究では、説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けの説明の品質を評価する方法について検討しています。従来のSimulatabilityスコアに代わる新しいメトリックを提案し、5つのデータセットと2つのモデルアーキテクチャで評価しました。結果として、提案したメトリックがより客観的な評価を可能にする一方、Simulatabilityは不十分であることが示されました。 #Article #ComputerVision #MachineLearning #NLP #Library #Transformer #Blog Issue Date: 2022-12-01 Transformers Interpret, 2022 Comment
transformersのモデルをたった2行追加するだけで、explainableにするライブラリ
基本的にtextとvisionのclassificationをサポートしている模様
text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をoutputしてくれる。
#Article #RecommenderSystems #Tutorial #Selected Papers/Blogs Issue Date: 2019-01-23 Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011 Comment
Recommender Systems HandbookのChapter。[Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07
のSurveyと同じ著者による執筆。
推薦のExplanationといえばこの人というイメージ。
D論: http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf