Depth


Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #Sparse #Initial Impression Notes #CurseOfDepth Issue Date: 2026-03-17 GPT Summary- LLMの深さの呪いを軽減するために、スパース性が分散伝播を調整する役割を示す。暗黙的スパース性と明示的スパース性の2つの源泉を扱い、出力分散の削減と機能的分化を促進。深いモデルを効果的に利用するための実践的な知見を提供し、下流タスクで精度を4.6%向上させた。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] The Curse of Depth in Large Language Models, Wenfang Sun+, arXiv'25, 2025.02

モデルのアーキテクチャやパラメータのスパース性が curse of depth を是正するという話らしい。
Figure1の記号はそれぞれ以下を表しており
- T: context window
- lambda: weight decay
- G: Group Query Attention
- MoE: Mixture of Experts

context windowを大きく、weight decayを強く(重みの正則化としての効果が強まる)、GQA (Attentionのスパース性が高まる)、MoE (MLPのスパース性が高まる)という感じだと思われ、特にGQA, MoEが大きく寄与してそうに見える。

image




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Scaling Laws Issue Date: 2026-02-06 GPT Summary- 深さと幅がLLMの性能に与える影響を探究し、深さが損失に反比例してスケールすることを発見。これは、類似層がアンサンブル平均を通じて誤差を減少させることに起因する可能性がある。効率を改善するには、深さの効果的な利用を促進するアーキテクチャの革新が必要であることを示唆。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Do Language Models Use Their Depth Efficiently?, Róbert Csordás+, NeurIPS'25, 2025.05
- [Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards




Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Transformer #Architecture #NeurIPS Issue Date: 2025-12-04 GPT Summary- 大規模言語モデル(LLM)の深さと性能の関係を分析した結果、後半の層は前半の層に比べて貢献度が低く、後半の層をスキップしても影響は小さいことが分かった。また、深いモデルは新しい計算を行っているのではなく、同じ計算を多くの層に分散させていることが示唆された。このことは、深さの増加がリターンの減少をもたらす理由を説明するかもしれない。 Comment

元ポスト:

Loading…

RLとネットワークの深さの関係性を分析した研究もある:
- [Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards

openreview: https://openreview.net/forum?id=Kz6eUL86XP&referrer=%5Bthe%20profile%20of%20Christopher%20D%20Manning%5D(%2Fprofile%3Fid%3D~Christopher_D_Manning1)




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #ReinforcementLearning #Self-SupervisedLearning #NeurIPS #read-later #Selected Papers/Blogs #Robotics #Locomotion #ContrastiveReinforcementLearning #Manipulation #EmergentAbilities Issue Date: 2025-12-01 GPT Summary- 自己教師ありRLのスケーラビリティを改善するため、ネットワークの深さを1024層に増加させることで性能向上を実証。無監督の目標条件設定でエージェントが探索し、目標達成を学ぶ実験を行い、自己教師ありコントラストRLアルゴリズムの性能を向上させた。深さの増加は成功率を高め、行動の質的変化ももたらす。 Comment

元ポスト:

Loading…