Toxicity


Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Safety #read-later #Selected Papers/Blogs #SparseAutoEncoder Issue Date: 2026-01-30 GPT Summary- 事前学習段階での望ましくない能力の削減に焦点を当て、医療能力除去のためのトークンフィルタリングが効果的であることを示す。特に、トークンフィルタリングが文書フィルタリングよりも低コストで望ましくない能力に対する影響を減少させることを実証。大規模モデルでのフィルタリング効果を検証し、7000倍の計算遅延の引き起こしを明らかに。スパースオートエンコーダを用いたトークンラベリング手法と高品質な分類器の蒸留方法論を提案し、ノイズの多いラベルに対するフィルタリングのロバスト性を示す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Safety #ICML #DPO #ActivationSteering/ITI #KeyPoint Notes Issue Date: 2025-05-09 GPT Summary- 本論文では、LLMの事前学習におけるデータの質の再検討を行い、有害データが事後学習における制御を向上させる可能性を探ります。トイ実験を通じて、有害データの割合が増加することで有害性の概念が線形表現に影響を与えることを発見し、有害データが生成的有害性を増加させつつも除去しやすくなることを示しました。評価結果は、有害データで訓練されたモデルが生成的有害性を低下させつつ一般的な能力を保持する良好なトレードオフを達成することを示唆しています。 Comment

元ポスト:

Loading…

これは面白そう

Webコーパスなどを事前学習で利用する際は、質の高いデータを残して学習した方が良いとされているが、4chanのようなtoxicなデータを混ぜて事前学習して、後からdetox(Inference Time Intervention Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 , SFT, DPO)することで、最終的なモデルのtoxicなoutputが減るという話らしい。これはそもそも事前学習時点でtoxicなデータのsignalが除外されることで、モデルがtoxicな内容のrepresentationを学習できず、最終的にtoxicか否かをコントロールできなくなるため、と考察している(っぽい)
image
image

有害な出力を減らせそうなことは分かったが、Activation Steeringによってどの程度モデルの性能に影響を与えるのかが気になる、と思ったがAppendixに記載があった。細かく書かれていないので推測を含むが、各データに対してToxicデータセットでProbingすることでTopKのheadを決めて、Kの値を調整することでinterventionの強さを調整し、Toxicデータの割合を変化させて評価してみたところ、モデルの性能に大きな影響はなかったということだと思われる(ただし1Bモデルでの実験しかない)

image

おそらく2,3節あたりが一番おもしろいポイントなのだと思われるがまだ読めていない。

openreview: https://openreview.net/forum?id=SsLGTZKXf1