ActivationFunction
[Paper Note] Stochastic activations, Maria Lomeli+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #DyingReLU Issue Date: 2025-09-29 GPT Summary- 確率的活性化を導入し、フィードフォワード層で非線形関数をランダムに選択。特に、ベルヌーイ分布に基づきSILUまたはRELUを選択し、最適化問題を回避。プレトレーニング中に確率的活性化を使用し、推論時にRELUでファインチューニングすることでFLOPsを削減し、速度向上を実現。また、生成においても確率的活性化を評価し、テキストの多様性を制御する代替手段を提供。 Comment
元ポスト:
[Paper Note] Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models, Zhijian Zhuo+, arXiv'24
Paper/Blog Link My Issue
#NeuralNetwork #NLP #Transformer Issue Date: 2025-08-25 GPT Summary- 新しい多項式合成活性化関数(PolyCom)を提案し、トランスフォーマーのダイナミクスを最適化。PolyComは他の活性化関数よりも高い表現力を持ち、最適近似率を達成。大規模言語モデルにおいて、従来の活性化関数をPolyComに置き換えることで、精度と収束率が向上することを実証。実験結果は他の活性化関数に対して大幅な改善を示す。コードは公開中。 Comment
関連:
- [Paper Note] GLU Variants Improve Transformer, Noam Shazeer, arXiv'20, 2020.02
[Paper Note] Primer: Searching for Efficient Transformers for Language Modeling, David R. So+, NIPS'21, 2021.09
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #One-Line Notes Issue Date: 2026-02-16 GPT Summary- 大規模なTransformerモデルのコスト削減を目指し、プリミティブに基づく低レベルの探索を行い、Primerアーキテクチャを提案。これにより、自己回帰型言語モデリングで訓練コストを大幅に削減。具体的にはReLU活性化関数の二乗化と深さ方向の畳み込み層追加が主な改善点。実験により、計算規模が大きくなるほどPrimerの利得が増加し、特に5億パラメータの設定で元のT5アーキテクチャに対し4分の1のコストで改善を確認。また、19億パラメータ設定でも、訓練資源を大幅に削減しながら同等の性能を実現。再現性を考慮し、モデルをオープンソース化。 Comment
nanochat speedrunを改善させたReLU^2を提案しているとのこと
[Paper Note] GLU Variants Improve Transformer, Noam Shazeer, arXiv'20, 2020.02
Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #Transformer #Selected Papers/Blogs Issue Date: 2024-05-24 GPT Summary- Gated Linear Units(GLU)のバリエーションにより、異なる非線形または線形関数を使用し、Transformerモデルのフィードフォワードサブレイヤーでテストしました。いくつかのバリエーションは、一般的なReLUやGELUよりも優れた性能を示しました。 Comment
一般的なFFNでは、linear layerをかけた後に、何らかの活性化関数をかませる方法が主流である。
このような構造の一つとしてGLUがあるが、linear layerと活性化関数には改良の余地があり、様々なvariantが考えられるため、色々試しました(以下の8種類のvariantが提案されている)、というはなし。
オリジナルのGLUと比較して、T5と同じ事前学習タスクを実施したところ、perplexityが改善
また、finetuningをした場合の性能も、多くの場合オリジナルのGLUよりも高い性能を示した。
