ActivationFunctionに関する論文・技術記事メモの一覧

ActivationFunction

#NeuralNetwork #Pocket #NLP #LanguageModel #DyingReLU
Issue Date: 2025-09-29 [Paper Note] Stochastic activations, Maria Lomeli+, arXiv'25, 2025.09 GPT Summary- 確率的活性化を導入し、フィードフォワード層で非線形関数をランダムに選択。特に、ベルヌーイ分布に基づきSILUまたはRELUを選択し、最適化問題を回避。プレトレーニング中に確率的活性化を使用し、推論時にRELUでファインチューニングすることでFLOPsを削減し、速度向上を実現。また、生成においても確率的活性化を評価し、テキストの多様性を制御する代替手段を提供。 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #NLP #Transformer
Issue Date: 2025-08-25 [Paper Note] Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models, Zhijian Zhuo+, arXiv'24 GPT Summary- 新しい多項式合成活性化関数（PolyCom）を提案し、トランスフォーマーのダイナミクスを最適化。PolyComは他の活性化関数よりも高い表現力を持ち、最適近似率を達成。大規模言語モデルにおいて、従来の活性化関数をPolyComに置き換えることで、精度と収束率が向上することを実証。実験結果は他の活性化関数に対して大幅な改善を示す。コードは公開中。 Comment

#NeuralNetwork #NLP #LanguageModel #Transformer #Selected Papers/Blogs
Issue Date: 2024-05-24 GLU Variants Improve Transformer, Noam Shazeer, N_A, arXiv'20 GPT Summary- GLUのバリエーションをTransformerのフィードフォワード・サブレイヤーでテストし、通常の活性化関数よりもいくつかのバリエーションが品質向上をもたらすことを発見した。 Comment

一般的なFFNでは、linear layerをかけた後に、何らかの活性化関数をかませる方法が主流である。

このような構造の一つとしてGLUがあるが、linear layerと活性化関数には改良の余地があり、様々なvariantが考えられるため、色々試しました、というはなし。

オリジナルのGLUと比較して、T5と同じ事前学習タスクを実施したところ、perplexityが改善

また、finetuningをした場合の性能も、多くの場合オリジナルのGLUよりも高い性能を示した。