LearningPhenomena
#NeuralNetwork
#Pocket
#NLP
#Transformer
#AAAI
Issue Date: 2025-11-09 [Paper Note] The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms, Hikari Otsuka+, arXiv'25, 2025.11 GPT Summary- 強いロッタリーチケット仮説(SLTH)は、ランダムに初期化されたニューラルネットワーク内に高性能なサブネットワークが存在することを示唆していますが、トランスフォーマーアーキテクチャにおける理解は不足しています。本研究では、マルチヘッドアテンション(MHA)内の強いロッタリーチケットの存在を理論的に分析し、特定の条件下で任意のMHAを高い確率で近似するサブネットワークが存在することを証明します。また、この理論を用いて正規化層のないトランスフォーマーにSLTHを拡張し、近似誤差が隠れ次元の増加に伴い指数関数的に減少することを実証的に示しました。 Comment
#NeuralNetwork #MachineLearning #Pocket
Issue Date: 2025-07-11 [Paper Note] Not All Explanations for Deep Learning Phenomena Are Equally Valuable, Alan Jeffares+, PMLR'25 GPT Summary- 深層学習の驚くべき現象(ダブルディセント、グロッキングなど)を孤立したケースとして説明することには限界があり、実世界のアプリケーションにはほとんど現れないと主張。これらの現象は、深層学習の一般的な原則を洗練するための研究価値があると提案し、研究コミュニティのアプローチを再考する必要性を示唆。最終的な実用的目標に整合するための推奨事項も提案。 Comment
#NeuralNetwork #MachineLearning #Pocket #ICLR
Issue Date: 2025-07-12 [Paper Note] Deep Double Descent: Where Bigger Models and More Data Hurt, Preetum Nakkiran+, ICLR'20 GPT Summary- 深層学習タスクにおける「ダブルデセント」現象を示し、モデルサイズの増加に伴い性能が一時的に悪化し、その後改善されることを明らかにした。また、ダブルデセントはモデルサイズだけでなくトレーニングエポック数にも依存することを示し、新たに定義した「効果的なモデルの複雑さ」に基づいて一般化されたダブルデセントを仮定。これにより、トレーニングサンプル数を増やすことで性能が悪化する特定の領域を特定できることを示した。 Comment
Issue Date: 2025-11-09 [Paper Note] The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms, Hikari Otsuka+, arXiv'25, 2025.11 GPT Summary- 強いロッタリーチケット仮説(SLTH)は、ランダムに初期化されたニューラルネットワーク内に高性能なサブネットワークが存在することを示唆していますが、トランスフォーマーアーキテクチャにおける理解は不足しています。本研究では、マルチヘッドアテンション(MHA)内の強いロッタリーチケットの存在を理論的に分析し、特定の条件下で任意のMHAを高い確率で近似するサブネットワークが存在することを証明します。また、この理論を用いて正規化層のないトランスフォーマーにSLTHを拡張し、近似誤差が隠れ次元の増加に伴い指数関数的に減少することを実証的に示しました。 Comment
元ポスト:
#NeuralNetwork #MachineLearning #Pocket
Issue Date: 2025-07-11 [Paper Note] Not All Explanations for Deep Learning Phenomena Are Equally Valuable, Alan Jeffares+, PMLR'25 GPT Summary- 深層学習の驚くべき現象(ダブルディセント、グロッキングなど)を孤立したケースとして説明することには限界があり、実世界のアプリケーションにはほとんど現れないと主張。これらの現象は、深層学習の一般的な原則を洗練するための研究価値があると提案し、研究コミュニティのアプローチを再考する必要性を示唆。最終的な実用的目標に整合するための推奨事項も提案。 Comment
元ポスト:
関連:
- [Paper Note] Deep Double Descent: Where Bigger Models and More Data Hurt, Preetum Nakkiran+, ICLR'20
- GROKKING: GENERALIZATION BEYOND OVERFIT- TING ON SMALL ALGORITHMIC DATASETS, Power+, ICLR'21 Workshop
- [Paper Note] The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks, Jonathan Frankle+, ICLR'19
#NeuralNetwork #MachineLearning #Pocket #ICLR
Issue Date: 2025-07-12 [Paper Note] Deep Double Descent: Where Bigger Models and More Data Hurt, Preetum Nakkiran+, ICLR'20 GPT Summary- 深層学習タスクにおける「ダブルデセント」現象を示し、モデルサイズの増加に伴い性能が一時的に悪化し、その後改善されることを明らかにした。また、ダブルデセントはモデルサイズだけでなくトレーニングエポック数にも依存することを示し、新たに定義した「効果的なモデルの複雑さ」に基づいて一般化されたダブルデセントを仮定。これにより、トレーニングサンプル数を増やすことで性能が悪化する特定の領域を特定できることを示した。 Comment
#NeuralNetwork
#MachineLearning
#Pocket
#ICLR
Issue Date: 2025-07-12
[Paper Note] The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks, Jonathan Frankle+, ICLR'19
GPT Summary- ニューラルネットワークのプルーニング技術は、パラメータ数を90%以上削減しつつ精度を維持できるが、スパースアーキテクチャの訓練は難しい。著者は「ロッタリー・チケット仮説」を提唱し、密なネットワークには効果的に訓練できるサブネットワーク(勝利のチケット)が存在することを発見。これらのチケットは特定の初期重みを持ち、元のネットワークと同様の精度に達する。MNISTとCIFAR10の実験で、10-20%のサイズの勝利のチケットを一貫して特定し、元のネットワークよりも早く学習し高精度に達することを示した。
Comment