ModelDiffingに関する論文・技術記事メモの一覧

ModelDiffing

[Paper Note] Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs, Thomas Jiralerspong+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #One-Line Notes Issue Date: 2026-04-05 GPT Summary- モデルdiffingは新モデルの安全性を明らかにする効果的手法だが、主にベースモデルとファインチューニングモデルの比較に限定されていた。Crosscodersはアーキテクチャを横断するモデルdiffingを可能にするが、従来はその応用が限られていた。本研究ではCrosscodersを用いた初のアーキテクチャ横断のモデルdiffingを行い、Dedicated Feature Crosscoders（DFCs）を提案。これにより、教師なしで特定の偏りや特徴を発見し、アーキテクチャ横断のモデルdiffingがAIモデル間の挙動差を特定する有効な手法であることを示した。 Comment

モデルのアーキテクチャを跨いでモデルの特徴や性質の違いのdiffを見る方法とのこと。

元ポスト:

Loading…