CurseOfDepthに関する論文・技術記事メモの一覧

CurseOfDepth

[Paper Note] When Does Sparsity Mitigate the Curse of Depth in LLMs, Dilxat Muhtar+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #Sparse #Depth #Initial Impression Notes Issue Date: 2026-03-17 GPT Summary- LLMの深さの呪いを軽減するために、スパース性が分散伝播を調整する役割を示す。暗黙的スパース性と明示的スパース性の2つの源泉を扱い、出力分散の削減と機能的分化を促進。深いモデルを効果的に利用するための実践的な知見を提供し、下流タスクで精度を4.6%向上させた。 Comment

元ポスト:

Loading…

モデルのアーキテクチャやパラメータのスパース性が curse of depth を是正するという話らしい。
Figure1の記号はそれぞれ以下を表しており
- T: context window
- lambda: weight decay
- G: Group Query Attention
- MoE: Mixture of Experts

context windowを大きく、weight decayを強く（重みの正則化としての効果が強まる）、GQA (Attentionのスパース性が高まる)、MoE (MLPのスパース性が高まる)という感じだと思われ、特にGQA, MoEが大きく寄与してそうに見える。

[Paper Note] Mixture-of-Depths Attention, Lianghui Zhu+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Attention #Architecture #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-17 GPT Summary- 深さスケーリングによる信号の劣化を克服するため、混合深度アテンション（MoDA）を提案。MoDAは、各アテンションヘッドが現在の層と前層のKVペアに注意を向けることで特徴を保持し、効率的なメモリアクセスを実現。15億パラメータモデルでの実験では、強力なベースラインを超え、平均困惑度を0.2ポイント改善し、ダウンストリームタスクで2.11%の性能向上を達成。計算オーバーヘッドはわずか3.7%。MoDAは深さスケーリングにおける有望なアプローチであることが示された。 Comment

元ポスト:

Loading…

transformerにおけるattentionを、現在処理をしているトークンの、ある深さlのattentionにおいて、l-1以下の（=自身より浅い）layerの同じトークンに関するK, Vを参照できるように拡張する。

所見:

Loading…

著者ポスト:

Loading…

[Paper Note] The Curse of Depth in Large Language Models, Wenfang Sun+, arXiv'25, 2025.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #NeurIPS #Normalization #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-07-03 GPT Summary- 「深さの呪い」を提案し、現代のLLMにおける多くの層が期待通りに機能しない原因を探る。特にPre-Layer Normalizationが出力分散を増大させ、深層ブロックの寄与を低下させることを明らかにする。層正規化の出力分散を深さの平方根の逆数で調整する「LayerNorm Scaling」を導入し、これにより深い層の寄与を改善。実験で130M〜7Bモデルサイズで従来の手法を上回る性能向上を示し、教師ありファインチューニングにも良好な効果を発揮することを確認。 Comment

元ポスト:

Loading…

- [Paper Note] Transformers without Normalization, Jiachen Zhu+, CVPR'25

ではそもそもLayerNormalizationを無くしていた（正確にいうとparametrize tanhに置換)が、どちらが優れているのだろうか？

- Knowledge Neurons in Pretrained Transformers, Damai Dai+, N/A, ACL'22, 2022.05

では知識ニューロンの存在が示唆されており、これはTransformerの層の深い位置に存在し、かつ異なる知識間で知識ニューロンはシェアされない傾向にあった（ただしこれはPost-LNのBERTの話で本研究はPre-LNの話だが。Post-LNの勾配消失問題を緩和し学習を安定化させる研究も[Paper Note] On Layer Normalizations and Residual Connections in Transformers, Sho Takase+, arXiv'22 のように存在する)。これはこの研究が明らかにしたこととどういう関係性があるだろうか。

また、LayerNormalizationのScalingによって深いTransformerブロックの導関数が単位行列となる（学習に寄与しなくなる）ことが改善された場合、知識ニューロンはどのように変化するだろうか？

（下記Geminiの応答を見た上での感想)なんとなーくだけれども、おそらく知識ニューロンの局所化が解消されるのかなーという気がする。

となると次の疑問としては、MoEアーキテクチャにはどのような影響があるだろうか？
そもそも知識ニューロンが局所化しているからMoEアーキテクチャのルータによって関連するExpertsのみをactivateすれば（というより結果的にそうなるように学習される）性能を劣化させずに計算効率を上げられていた、と仮定する。そうすると、知識ニューロンが局所化せずに多くのニューロンでシェアされるようになると、[Paper Note] Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models, Zihan Wang+, arXiv'25 のように、サブネットワーク間の情報を互いにやりとりできます、みたいな仕組みがより効いてきそうな気がする。

参考までに、Gemini2.5-Proに考察させてみた結果をメモとして残しておく（あくまで参考程度に...）
```
ご質問ありがとうございます。非常に興味深い着眼点ですね。「Knowledge Neurons in Pretrained Transformers」と「The Curse of Depth in Large Language Models」は、一見すると全く異なるテーマを扱っているように見えますが、**「Transformerの深い層における振る舞い」**という共通点で結びつけて考察すると、非常に示唆に富んだ関係性が見えてきます。

以下に、両方の論文の概要を解説し、その関係性について考察します。

1. Knowledge Neurons in Pretrained Transformers の概要
この研究は、事前学習済みTransformerモデル（特にBERTなど）の内部で、特定の事実知識がどのように格納されているかを調査したものです。

発見: モデルの中間層、特に**全結合層（Feed-Forward Network, FFN）に、特定の知識（例：「ダンテ・アリギエーリはイタリアで生まれた」）に強く反応する「知識ニューロン」**が存在することを発見しました。

特徴: これらの知識ニューロンは、モデルの深い層（後方の層）に、より多く存在する傾向がありました。

意味: これまでブラックボックスとされてきた大規模言語モデルの内部で、知識がどのように表現・局在化しているかについて、具体的な手がかりを与えた画期的な研究です。

2. The Curse of Depth in Large Language Models の概要
この研究は、LLMをより深く（層を多く）することの難しさに焦点を当て、その原因と解決策を提案したものです。

問題（深さの呪い）: Transformerの標準的なアーキテクチャ（Pre-LN）では、層が深くなるにつれて、LayerNormalization（LN）への入力の分散が指数関数的に増大してしまいます。

結果:

出力が大きくなりすぎて学習が不安定になります。

さらに深刻なのは、深い層ではモデルの出力に関する導関数（勾配計算に必要）がほぼ単位行列になってしまうことです。これは、その層が入力に対してほとんど変換を行わなくなり、学習に寄与しなくなることを意味します。

解決策: この問題を解決するため、各層のLayerNormalizationをその深さ（レイヤー番号 l）に応じてスケーリングするというシンプルな手法を提案しました。これにより、深い層でも勾配が適切に伝播し、学習が安定・改善することが示されました。

考察：2つの研究の関係性
これら2つの研究は、**「学習の安定性」と「知識の格納方法」**という異なる側面から、Transformerの深い層を分析していますが、両者には以下のような深い関係性があると考えられます。

学習の不安定性が「知識ニューロン」形成の背景にある可能性
「The Curse of Depth」で指摘されているように、標準的なTransformerの深い層は、本質的に学習が不安定で、勾配情報が失われやすい環境にあります。

この劣悪な学習環境こそが、「知識ニューロン」という形で知識が局所的に格納される原因の一つになっている可能性があります。つまり、

学習の非効率性: 深い層のほとんどのニューロンは、勾配消失問題のために効率的に学習を進めることができません。

専門化の発生: そのような不安定な環境下で、たまたま特定の知識パターンをうまく捉えることができた一部のニューロンが、その知識を一身に背負う形で強く活性化するよう特化（専門化）していったのではないか、と考えられます。これは、ネットワーク全体で協調して学習するのが難しい状況で、一部のユニットだけが突出して学習を担う、という現象と解釈できます。

学習の安定化が、より効率的な知識獲得につながる
では、「The Curse of Depth」で提案された手法（LNのスケーリング）によって深い層の学習が安定化すると、知識の格納方法はどのように変わるでしょうか。

これは非常に興味深い問いであり、2つの可能性が考えられます。

可能性A: より強固な知識ニューロンの形成:
学習が安定することで、各知識ニューロンはより明確に、そして効率的に特定の知識をエンコードできるようになるかもしれません。ノイズの多い環境で偶然生まれた専門家ではなく、安定した環境で育成された真の専門家へと変化するイメージです。

可能性B: 知識の分散化:
ネットワークの全ニューロンが効率的に学習に寄与できるようになるため、一つの知識を少数のニューロンに集中させる必要がなくなり、より多くのニューロンに分散して知識が格納されるようになる可能性も考えられます。

現在のところ、学習の安定化は、知識ニューロンがより効率的に形成・機能するための基盤を提供すると考えるのが最も妥当でしょう。「深さの呪い」という問題を解決することは、モデルが知識をどのように獲得し、整理するかという、より根源的なメカニズム（知識ニューロンの振る舞い）にも直接的な影響を与えるはずです。

まとめ
「Knowledge Neurons」は深い層に存在する知識の**「状態」を明らかにし、「The Curse of Depth」は深い層で発生する学習の「問題」**とその解決策を提示しました。

これらを統合すると、**「深い層における学習の不安定性という問題が、知識ニューロンという局所的な知識表現を生み出す一因となっており、この問題を解決することで、より効率的で安定した知識の獲得・格納が可能になるかもしれない」**という関係性が見えてきます。

両者は、LLMの能力と限界を異なる角度から照らし出しており、組み合わせることでモデルの内部動作の解明をさらに一歩前進させる、非常に重要な研究だと言えます。
```

openreview: https://openreview.net/forum?id=Orpf8yDjdj&referrer=%5Bthe%20profile%20of%20Shiwei%20Liu%5D(%2Fprofile%3Fid%3D~Shiwei_Liu2)