ModelDiffing


Paper/Blog Link My Issue
#NLP #LanguageModel #One-Line Notes Issue Date: 2026-04-05 GPT Summary- モデルdiffingは新モデルの安全性を明らかにする効果的手法だが、主にベースモデルとファインチューニングモデルの比較に限定されていた。Crosscodersはアーキテクチャを横断するモデルdiffingを可能にするが、従来はその応用が限られていた。本研究ではCrosscodersを用いた初のアーキテクチャ横断のモデルdiffingを行い、Dedicated Feature Crosscoders(DFCs)を提案。これにより、教師なしで特定の偏りや特徴を発見し、アーキテクチャ横断のモデルdiffingがAIモデル間の挙動差を特定する有効な手法であることを示した。 Comment

モデルのアーキテクチャを跨いでモデルの特徴や性質の違いのdiffを見る方法とのこと。

元ポスト:

Loading…