CircuitAnalysisに関する論文・技術記事メモの一覧

CircuitAnalysis

[Paper Note] All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs, Xi Chen+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel Issue Date: 2026-05-27 GPT Summary- 本研究では、LLMsの機能が単一のメカニズムに局在しているという「機能的異方性仮説」に基づき、回路と層の発見に関する経験的および理論的証拠を示す。Overlap-Aware Sheaf Repulsionを導入し、構造的重複にペナルティを加えることで、効率的に多様な回路を発見可能であることを確認した。この現象は発見された回路が増えるにつれて明らかになる。さらに、超疎な三辺のシーフを特定し、それぞれの辺が独立して重要でないことを示すことで、成分の標準的な概念も揺らぐことを論じた。分布型密結回路仮説を提案し、重ね合わせから低重複の回路が自然に生まれることを理論的に示す。これらの結果は、LLMsの機序的説明に対する再考を促す。 Comment

元ポスト:

Loading…

[Paper Note] Transcoders Beat Sparse Autoencoders for Interpretability, Gonçalo Paulo+, arXiv'25, 2025.01

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Transcoders #Interpretability Issue Date: 2025-12-21 GPT Summary- スパースオートエンコーダー（SAE）とトランスコーダーの特徴を比較した結果、トランスコーダーの方が解釈可能性が高いことが判明。さらに、アフィン・スキップ接続を追加したスキップトランスコーダーを提案し、解釈可能性を維持しつつ再構築損失を低下させることを示した。

[Paper Note] Transcoders Find Interpretable LLM Feature Circuits, Jacob Dunefsky+, arXiv'24, 2024.06

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #NLP #LanguageModel #read-later #Selected Papers/Blogs #Transcoders #Interpretability Issue Date: 2025-12-21 GPT Summary- トランスコーダーを用いて、MLPサブレイヤーの回路分析を行い、スパースなMLPレイヤーでの忠実な近似を実現。これにより、入力依存項と入力不変項に因数分解された回路を得る。120Mから1.4Bパラメータの言語モデルで訓練し、SAEと同等の解釈可能性を確認。GPT2-smallの「greater-than circuit」に関する新たな洞察も得られた。トランスコーダーはMLPを含むモデル計算の解釈に効果的であることが示唆された。

Circuit Tracing: Revealing Computational Graphs in Language Models, Anthropic, 2025.03

Paper/Blog Link My Issue
#Article #NeuralNetwork #NLP #LanguageModel #Blog #Transcoders #Interpretability Issue Date: 2025-12-21

dictionary_learning, Marks+, 2024

Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #NLP #SparseAutoencoder #Transcoders #Interpretability Issue Date: 2025-12-21

Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior, Google Deepmind, 2025.12

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Reasoning #Safety #KeyPoint Notes #SparseAutoencoder #Transcoders Issue Date: 2025-12-20 Comment

元ポスト:

Loading…

（↓勉強中なので誤りが含まれる可能性大）

Sparse Auto Encoder (SAE; あるlayerにおいてどのような特徴が保持されているかを見つける）とTranscoder (ある層で見つかった特徴と別の層の特徴の関係性を見つける）を用いて、Gemma3の回路分析が行えるモデル・ツール群をリリースした、という話に見える。

応用例の一つとして、たとえば詐欺メールをinputしたときに、詐欺関連する特徴量がどのトークン由来で内部的にどれだけ活性したかを可視化できる。

テクニカルレポート: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/Gemma_Scope_2_Technical_Paper.pdf

可視化例:

Loading…