Depth


Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Scaling Laws Issue Date: 2026-02-06 GPT Summary- 深さと幅がLLMの性能に与える影響を探究し、深さが損失に反比例してスケールすることを発見。これは、類似層がアンサンブル平均を通じて誤差を減少させることに起因する可能性がある。効率を改善するには、深さの効果的な利用を促進するアーキテクチャの革新が必要であることを示唆。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Do Language Models Use Their Depth Efficiently?, Róbert Csordás+, NeurIPS'25, 2025.05
- [Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards




Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Transformer #Architecture #NeurIPS Issue Date: 2025-12-04 GPT Summary- 大規模言語モデル(LLM)の深さと性能の関係を分析した結果、後半の層は前半の層に比べて貢献度が低く、後半の層をスキップしても影響は小さいことが分かった。また、深いモデルは新しい計算を行っているのではなく、同じ計算を多くの層に分散させていることが示唆された。このことは、深さの増加がリターンの減少をもたらす理由を説明するかもしれない。 Comment

元ポスト:

Loading…

RLとネットワークの深さの関係性を分析した研究もある:
- [Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards

openreview: https://openreview.net/forum?id=Kz6eUL86XP&referrer=%5Bthe%20profile%20of%20Christopher%20D%20Manning%5D(%2Fprofile%3Fid%3D~Christopher_D_Manning1)




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #ReinforcementLearning #Self-SupervisedLearning #NeurIPS #read-later #Selected Papers/Blogs #Robotics #Locomotion #ContrastiveReinforcementLearning #Manipulation #EmergentAbilities Issue Date: 2025-12-01 GPT Summary- 自己教師ありRLのスケーラビリティを改善するため、ネットワークの深さを1024層に増加させることで性能向上を実証。無監督の目標条件設定でエージェントが探索し、目標達成を学ぶ実験を行い、自己教師ありコントラストRLアルゴリズムの性能を向上させた。深さの増加は成功率を高め、行動の質的変化ももたらす。 Comment

元ポスト:

Loading…