DyingReLU

#NeuralNetwork #Pocket #NLP #LanguageModel #ActivationFunction
Issue Date: 2025-09-29 [Paper Note] Stochastic activations, Maria Lomeli+, arXiv'25, 2025.09 GPT Summary- 確率的活性化を導入し、フィードフォワード層で非線形関数をランダムに選択。特に、ベルヌーイ分布に基づきSILUまたはRELUを選択し、最適化問題を回避。プレトレーニング中に確率的活性化を使用し、推論時にRELUでファインチューニングすることでFLOPsを削減し、速度向上を実現。また、生成においても確率的活性化を評価し、テキストの多様性を制御する代替手段を提供。 Comment

元ポスト:

Loading…