Depth


Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #NLP #Transformer #Architecture #NeurIPS Issue Date: 2025-12-04 GPT Summary- 大規模言語モデル(LLM)の深さと性能の関係を分析した結果、後半の層は前半の層に比べて貢献度が低く、後半の層をスキップしても影響は小さいことが分かった。また、深いモデルは新しい計算を行っているのではなく、同じ計算を多くの層に分散させていることが示唆された。このことは、深さの増加がリターンの減少をもたらす理由を説明するかもしれない。 Comment

元ポスト:

Loading…

RLとネットワークの深さの関係性を分析した研究もある:
- [Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #ReinforcementLearning #Self-SupervisedLearning #NeurIPS #read-later #Selected Papers/Blogs #Robotics #Locomotion #ContrastiveReinforcementLearning #Manipulation #EmergentAbilities Issue Date: 2025-12-01 GPT Summary- 自己教師ありRLのスケーラビリティを改善するため、ネットワークの深さを1024層に増加させることで性能向上を実証。無監督の目標条件設定でエージェントが探索し、目標達成を学ぶ実験を行い、自己教師ありコントラストRLアルゴリズムの性能を向上させた。深さの増加は成功率を高め、行動の質的変化ももたらす。 Comment

元ポスト:

Loading…