SparseAutoEncoder
#Pocket
#ICCV
Issue Date: 2025-10-24 [Paper Note] Large Multi-modal Models Can Interpret Features in Large Multi-modal Models, Kaichen Zhang+, ICCV'25, 2024.11 GPT Summary- LMMの内部神経表現を理解するためのフレームワークを提案。スパースオートエンコーダを用いて特徴を分解し、自動解釈フレームワークでモデルの挙動を分析。結果はLMMのタスク性能や誤りの性質を明らかにし、人間の認知プロセスとの類似性を示唆。 Comment
#Analysis #Pocket #NLP #LanguageModel #MultiLingual #EMNLP #Findings
Issue Date: 2025-09-24 [Paper Note] How a Bilingual LM Becomes Bilingual: Tracing Internal Representations with Sparse Autoencoders, Tatsuro Inaba+, EMNLP'25 Findings, 2025.03 GPT Summary- 本研究では、バイリンガル言語モデルの内部表現の発展をスパースオートエンコーダーを用いて分析。言語モデルは初めに言語を個別に学習し、中間層でバイリンガルの整合性を形成することが明らかに。大きなモデルほどこの傾向が強く、分解された表現を中間トレーニングモデルに統合する新手法でバイリンガル表現の重要性を示す。結果は、言語モデルのバイリンガル能力獲得に関する洞察を提供。 Comment
#Analysis #Pocket #NLP #LanguageModel #ICLR #Selected Papers/Blogs #KeyPoint Notes
Issue Date: 2025-03-15 Sparse Autoencoders Find Highly Interpretable Features in Language Models, Hoagy Cunningham+, ICLR'24 GPT Summary- 神経ネットワークの多義性を解消するために、スパースオートエンコーダを用いて内部活性化の方向を特定。これにより、解釈可能で単義的な特徴を学習し、間接目的語の同定タスクにおける因果的特徴をより詳細に特定。スケーラブルで教師なしのアプローチが重ね合わせの問題を解決できることを示唆し、モデルの透明性と操作性向上に寄与する可能性を示す。 Comment
Issue Date: 2025-10-24 [Paper Note] Large Multi-modal Models Can Interpret Features in Large Multi-modal Models, Kaichen Zhang+, ICCV'25, 2024.11 GPT Summary- LMMの内部神経表現を理解するためのフレームワークを提案。スパースオートエンコーダを用いて特徴を分解し、自動解釈フレームワークでモデルの挙動を分析。結果はLMMのタスク性能や誤りの性質を明らかにし、人間の認知プロセスとの類似性を示唆。 Comment
#Analysis #Pocket #NLP #LanguageModel #MultiLingual #EMNLP #Findings
Issue Date: 2025-09-24 [Paper Note] How a Bilingual LM Becomes Bilingual: Tracing Internal Representations with Sparse Autoencoders, Tatsuro Inaba+, EMNLP'25 Findings, 2025.03 GPT Summary- 本研究では、バイリンガル言語モデルの内部表現の発展をスパースオートエンコーダーを用いて分析。言語モデルは初めに言語を個別に学習し、中間層でバイリンガルの整合性を形成することが明らかに。大きなモデルほどこの傾向が強く、分解された表現を中間トレーニングモデルに統合する新手法でバイリンガル表現の重要性を示す。結果は、言語モデルのバイリンガル能力獲得に関する洞察を提供。 Comment
元ポスト:
#Analysis #Pocket #NLP #LanguageModel #ICLR #Selected Papers/Blogs #KeyPoint Notes
Issue Date: 2025-03-15 Sparse Autoencoders Find Highly Interpretable Features in Language Models, Hoagy Cunningham+, ICLR'24 GPT Summary- 神経ネットワークの多義性を解消するために、スパースオートエンコーダを用いて内部活性化の方向を特定。これにより、解釈可能で単義的な特徴を学習し、間接目的語の同定タスクにおける因果的特徴をより詳細に特定。スケーラブルで教師なしのアプローチが重ね合わせの問題を解決できることを示唆し、モデルの透明性と操作性向上に寄与する可能性を示す。 Comment
日本語解説: https://note.com/ainest/n/nbe58b36bb2db
OpenReview: https://openreview.net/forum?id=F76bwRSLeK
SparseAutoEncoderはネットワークのあらゆるところに仕込める(と思われる)が、たとえばTransformer Blockのresidual connection部分のベクトルに対してFeature Dictionaryを学習すると、当該ブロックにおいてどのような特徴の組み合わせが表現されているかが(あくまでSparseAutoEncoderがreconstruction lossによって学習された結果を用いて)解釈できるようになる。
SparseAutoEncoderは下記式で表され、下記loss functionで学習される。MがFeature Matrix(row-wiseに正規化されて後述のcに対するL1正則化に影響を与えないようにしている)に相当する。cに対してL1正則化をかけることで(Sparsity Loss)、c中の各要素が0に近づくようになり、結果としてcがSparseとなる(どうしても値を持たなければいけない重要な特徴量のみにフォーカスされるようになる)。
#Article
#Tutorial
#NLP
#LanguageModel
#Blog
#One-Line Notes
Issue Date: 2025-11-06
Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11
Comment
SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル