Transcoders
[Paper Note] Transcoders Beat Sparse Autoencoders for Interpretability, Gonçalo Paulo+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #CircuitAnalysis #Interpretability Issue Date: 2025-12-21 GPT Summary- スパースオートエンコーダー(SAE)とトランスコーダーの特徴を比較した結果、トランスコーダーの方が解釈可能性が高いことが判明。さらに、アフィン・スキップ接続を追加したスキップトランスコーダーを提案し、解釈可能性を維持しつつ再構築損失を低下させることを示した。
[Paper Note] Transcoders Find Interpretable LLM Feature Circuits, Jacob Dunefsky+, arXiv'24, 2024.06
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #NLP #LanguageModel #read-later #Selected Papers/Blogs #CircuitAnalysis #Interpretability Issue Date: 2025-12-21 GPT Summary- トランスコーダーを用いて、MLPサブレイヤーの回路分析を行い、スパースなMLPレイヤーでの忠実な近似を実現。これにより、入力依存項と入力不変項に因数分解された回路を得る。120Mから1.4Bパラメータの言語モデルで訓練し、SAEと同等の解釈可能性を確認。GPT2-smallの「greater-than circuit」に関する新たな洞察も得られた。トランスコーダーはMLPを含むモデル計算の解釈に効果的であることが示唆された。
Circuit Tracing: Revealing Computational Graphs in Language Models, Anthropic, 2025.03
Paper/Blog Link My Issue
#Article #NeuralNetwork #NLP #LanguageModel #Blog #CircuitAnalysis #Interpretability Issue Date: 2025-12-21
dictionary_learning, Marks+, 2024
Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #NLP #SparseAutoEncoder #CircuitAnalysis #Interpretability Issue Date: 2025-12-21
Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior, Google Deepmind, 2025.12
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Reasoning #Safety #KeyPoint Notes #SparseAutoEncoder #CircuitAnalysis Issue Date: 2025-12-20 Comment
元ポスト:
関連:
- [Paper Note] Sparse Autoencoders Find Highly Interpretable Features in Language Models, Hoagy Cunningham+, ICLR'24
- dictionary_learning, Marks+, 2024
- [Paper Note] Transcoders Find Interpretable LLM Feature Circuits, Jacob Dunefsky+, arXiv'24, 2024.06
- [Paper Note] Learning Multi-Level Features with Matryoshka Sparse Autoencoders, Bart Bussmann+, ICLR'25, 2025.03
- [Paper Note] Transcoders Beat Sparse Autoencoders for Interpretability, Gonçalo Paulo+, arXiv'25, 2025.01
(↓勉強中なので誤りが含まれる可能性大)
Sparse Auto Encoder (SAE; あるlayerにおいてどのような特徴が保持されているかを見つける)とTranscoder (ある層で見つかった特徴と別の層の特徴の関係性を見つける)を用いて、Gemma3の回路分析が行えるモデル・ツール群をリリースした、という話に見える。
応用例の一つとして、たとえば詐欺メールをinputしたときに、詐欺関連する特徴量がどのトークン由来で内部的にどれだけ活性したかを可視化できる。
可視化例: