ModelDiffing
[Paper Note] Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs, Thomas Jiralerspong+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #One-Line Notes Issue Date: 2026-04-05 GPT Summary- モデルdiffingは新モデルの安全性を明らかにする効果的手法だが、主にベースモデルとファインチューニングモデルの比較に限定されていた。Crosscodersはアーキテクチャを横断するモデルdiffingを可能にするが、従来はその応用が限られていた。本研究ではCrosscodersを用いた初のアーキテクチャ横断のモデルdiffingを行い、Dedicated Feature Crosscoders(DFCs)を提案。これにより、教師なしで特定の偏りや特徴を発見し、アーキテクチャ横断のモデルdiffingがAIモデル間の挙動差を特定する有効な手法であることを示した。 Comment
モデルのアーキテクチャを跨いでモデルの特徴や性質の違いのdiffを見る方法とのこと。
元ポスト:
