ActivationSteering/ITI

#Pocket #NLP #LanguageModel #Hallucination #Trustfulness
Issue Date: 2025-07-26 [Paper Note] GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs, Duy Nguyen+, arXiv'25 SummaryGrAInSは、LLMsおよびVLMsの推論時に内部活性を調整する新しいステアリング手法で、固定された介入ベクトルに依存せず、トークンの因果的影響を考慮します。統合勾配を用いて、出力への寄与に基づき重要なトークンを特定し、望ましい行動への変化を捉えるベクトルを構築します。これにより、再訓練なしでモデルの挙動を細かく制御でき、実験ではファインチューニングや既存手法を上回る成果を示しました。具体的には、TruthfulQAで精度を13.22%向上させ、MMHal-Benchの幻覚率を低下させ、SPA-VLでのアライメント勝率を改善しました。 Comment元ポスト:https://x.com/duynguyen772/status/1948768520587866522?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q既存のsteering手法は、positive/negativeなサンプルからの差分で単一方向のベクトルを算出し、すべてのトークンに足し合わせるが、本手法はそこからさらにpositive/negativeな影響を与えるトークンレベルにまで踏み込み、negativeなベクトルとpositiveなベクトルの双方を用いて、negative->positive方向のベクトルを算出してsteeringに活用する方法っぽい?
image

image

image関連:
・1941
#Pretraining #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Safety #DPO #Toxicity
Issue Date: 2025-05-09 When Bad Data Leads to Good Models, Kenneth Li+, arXiv'25 Summary本論文では、LLMの事前学習におけるデータの質の再検討を行い、有害データが事後学習における制御を向上させる可能性を探ります。トイ実験を通じて、有害データの割合が増加することで有害性の概念が線形表現に影響を与えることを発見し、有害データが生成的有害性を増加させつつも除去しやすくなることを示しました。評価結果は、有害データで訓練されたモデルが生成的有害性を低下させつつ一般的な能力を保持する良好なトレードオフを達成することを示唆しています。 Comment元ポスト:https://x.com/ke_li_2021/status/1920646069613957606?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qこれは面白そうWebコーパスなどを事前学習で利用する際は、質の高いデータを残して学習した方が良いとされているが、4chanのようなtoxicなデータを混ぜて事前学習して、後からdetox(Inference Time Intervention 1941 , SFT, DPO)することで、最終的なモデルのtoxicなoutputが減るという話らしい。これはそもそも事前学習時点でtoxicなデータのsignalが除外されることで、モデルがtoxicな内容のrepresentationを学習できず、最終的にtoxicか否かをコントロールできなくなるため、と考察している(っぽい)
image
image有害な出力を減らせそうなことは分かったが、Activation Steeringによってどの程度モデルの性能に影響を与えるのかが気になる、と思ったがAppendixに記載があった。細かく書かれていないので推測を含むが、各データに対してToxicデータセットでProbingすることでTopKのheadを決めて、Kの値を調整することでinterventionの強さを調整し、Toxicデータの割合を変化させて評価してみたところ、モデルの性能に大きな影響はなかったということだと思われる(ただし1Bモデルでの実験しかない)

image
おそらく2,3節あたりが一番おもしろいポイントなのだと思われるがまだ読めていない。
#MachineLearning #Pocket #NLP #LanguageModel #Hallucination #NeurIPS #read-later #Probing #Trustfulness #Admin'sPick
Issue Date: 2025-05-09 Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 SummaryInference-Time Intervention (ITI)を提案し、LLMsの真実性を向上させる技術を紹介。ITIは推論中にモデルの活性化を調整し、LLaMAモデルの性能をTruthfulQAベンチマークで大幅に改善。Alpacaモデルでは真実性が32.5%から65.1%に向上。真実性と有用性のトレードオフを特定し、介入の強度を調整する方法を示す。ITIは低コストでデータ効率が高く、数百の例で真実の方向性を特定可能。LLMsが虚偽を生成しつつも真実の内部表現を持つ可能性を示唆。 CommentInference Time Interventionを提案した研究。Attention Headに対して線形プロービング[^1]を実施し、真実性に関連するであろうHeadをtopKで特定できるようにし、headの出力に対し真実性を高める方向性のベクトルvを推論時に加算することで(=intervention)、モデルの真実性を高める。vは線形プロービングによって学習された重みを使う手法と、正答と誤答の活性化の平均ベクトルを計算しその差分をvとする方法の二種類がある。後者の方が性能が良い。topKを求める際には、線形プロービングをしたモデルのvalidation setでの性能から決める。Kとαはハイパーパラメータである。

[^1]: headのrepresentationを入力として受け取り、線形モデルを学習し、線形モデルの2値分類性能を見ることでheadがどの程度、プロービングの学習に使ったデータに関する情報を保持しているかを測定する手法

日本語解説スライド:https://www.docswell.com/s/DeepLearning2023/Z38P8D-2024-06-20-131813p1これは相当汎用的に使えそうな話だから役に立ちそう

#Pocket Issue Date: 2025-08-19 [Paper Note] Counterfactual Interventions Reveal the Causal Effect of Relative Clause Representations on Agreement Prediction, Shauli Ravfogel+, arXiv'21 SummaryAlterRepという手法を用いて、言語モデルが構文的に複雑な文を処理する際の因果的影響を調査。反事実的表現を生成し、BERTモデルが関係節(RC)の境界情報を文法に従って使用していることを発見。RCの境界情報は異なるタイプ間で一般化され、BERTがRCを抽象的な言語的カテゴリーとして表現していることが示された。 CommentAlterCapという手法名だが、steeringの先行研究とのこと
https://x.com/tallinzen/status/1957454242936938545?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#Pocket Issue Date: 2025-08-19 [Paper Note] Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information, Mario Giulianelli+, arXiv'18 Summary神経言語モデルにおける数の一致を追跡する方法を探求し、内部状態から数を予測する「診断分類器」を用いて、数の情報がどのように表現されるかを理解する。分類器は一致エラーの原因を特定し、数の情報の破損を示す。さらに、一致情報を用いてLSTMの処理に介入することで、モデルの精度が向上することを示す。これにより、診断分類器が言語情報の表現を観察し、モデルの性能向上に寄与する可能性があることが明らかとなった。 Commentprobing/steeringのliteratureにおいて重要な研究とのこと
元ポスト:https://x.com/tallinzen/status/1957467905639293389?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#Article #NLP #LanguageModel #Personality Issue Date: 2025-08-02 Persona vectors: Monitoring and controlling character traits in language models, Anthropic, 2025.08 Comment元ポスト:https://x.com/anthropicai/status/1951317898313466361?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QFull Paper: https://arxiv.org/abs/2507.21509ITIでよく使われる手法を用いてLLMのpersonalityに関するsteeringベクトルを抽出して適用する(evil, sycophancy, hallucination)。このベクトルは、学習中の監視やペルソナシフトの是正、特定の不都合なペルソナを生じさせる要因となる学習データの同定などの応用が期待される。

image

ITIでsteeringを実施するとMMLUのような一般的なタスクの能力が劣化するのに対し、学習中にsteeringを実施しながら学習するとタスク遂行能力の低下なしにシフトが生じるのを抑制することが可能な模様。
image