Optimizer
[Paper Note] FlashOptim: Optimizers for Memory Efficient Training, Jose Javier Gonzalez Ortiz+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Quantization #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-05 GPT Summary- パラメータあたりのメモリを50%以上削減する最適化手法FlashOptimを提案。改善されたマスタウェイト分割と8ビットオプティマイザの量子化を活用し、AdamWのメモリを16バイトから7バイト、勾配リリースによりさらに5バイトに削減。これによりモデルのチェックポイントサイズも大幅に減少し、品質を保持しつつ視覚と言語タスクでの劣化は見られなかった。 Comment
元ポスト:
すでにpip install flashoptimで利用可能。SGD, Adam, AdamW, Lionがサポートされている。8Bモデルの訓練に必要なピークメモリを35%削減し、チェックポイントのサイズもも57%小さくなるという優れもの。実験結果では性能の劣化もなしという報告。
[Paper Note] Accelerating LLM Pre-Training through Flat-Direction Dynamics Enhancement, Shuchen Zhu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel Issue Date: 2026-02-28 GPT Summary- 大規模言語モデルの事前学習における効率的なオプティマイザーの必要性を強調。平坦な方向への更新に特化した行列ベースのオプティマイザーが良好な性能を示す中、リーマン幾何学的常微分方程式(ODE)フレームワークを構築し、一般的な適応アルゴリズムの相互作用を探求。新たに提案するLITEは、平坦な軌跡に沿った学習率の適用で訓練ダイナミクスを改善し、広範な条件下でMuonとSOAPの両方を加速。理論的に速い収束を確認し、効率的なLLM事前学習の体系的アプローチを提供。 Comment
元ポスト:
[Paper Note] Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum, Minxin Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
Issue Date: 2026-02-21 GPT Summary- 新たな確率的最適化手法NAMOとNAMO-Dを提案し、直交化モーメントとノイズ適応の統合を図る。NAMOは単一の適応ステップサイズを使用し、Muonを改善。NAMO-Dはクリップされた対角行列を利用し、ニューロンごとのノイズ適応を実現。両手法は収束速度の保証を持ち、GPT-2モデルの事前学習でAdamWおよびMuonと比較して性能向上を示す。NAMO-Dは細かなノイズ適応を活かしつつ、更新方向を最適化する。 Comment
元ポスト:
[Paper Note] Towards Robust Scaling Laws for Optimizers, Alexandra Volkova+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws #One-Line Notes #Robustness Issue Date: 2026-02-12 GPT Summary- 最適化手法がLLMの事前学習の質に与える影響を調査。Chinchillaスタイルのスケーリング則は条件が悪く、代わりに特有の再スケーリング因子を持つ共有の冪則指数を提案。これにより異なる最適化手法間の比較が可能に。最終的には、損失の分解に基づく理論的分析を行い、Chinchillaスタイルのスケーリング則の出現を説明。 Comment
元ポスト:
(きちんと理解できているか怪しいが)従来のチンチラ則に代表されるL(N,D)に関する(モデルサイズ、データ量、最終損失)Scaling LawsはOptimiserを固定(AdamやAdamW)した上で求められていたが、本研究では異なるOptimiser(Muon, Shampoo, SOAPなど)が適用された場合にロバストではないことを指摘し、Optimiser間で共有のパラメータと、Optimiser毎にfittingさせる係数を用いた定式化(3)によって、よりOptimiser間でロバストなScaling Lawsを提案しOptimiser間での比較を可能にした模様。また、損失をQuadratic Lossを最適化する観点から分解し、Theorem 6.3で示される理論的なスケーリング則を導出。これらの個別の項を解釈すると、第一項L^*がチンチラ則のEに対応し(普遍的に生じる基本的な損失)、第二項Θ(λ^ω_d)は近似誤差(当該モデルサイズでの性能の限界による誤差)がチンチラ則でのparameter efficiency term A/(N^α)に対応し、第三項O(e^−2kλd)は最適化誤差を表すが、これがチンチラ則でのdata efficiency term B/(D^β)に対応すると解釈でき、自然とチンチラ則スタイルのスケーリング則が導出されることを理論的に示したようである。
[Paper Note] Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate, Zhiqi Bu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Scaling Laws #Selected Papers/Blogs #Scheduler #One-Line Notes Issue Date: 2026-02-12 GPT Summary- 深層学習の最適化ダイナミクスを分析し、凸性とリプシッツ連続性の観点から損失の制御を探求。弱凸的な挙動を示し、学習率スケジュールによる損失の予測可能性を提供。学習率と損失のスケーリング法則を提案し、トレーニング期間で80倍、モデルサイズで70倍の外挿が可能であることを実証。 Comment
元ポスト:
深層学習モデルにおけるモデルサイズNと学習ステップ数Tを変数としたときに、最適ピーク学習率η_peakと最終損失のそれぞれについてスケーリング則を導出しているようである(1/sqrt(T)にスケールする)。実用上は、式5.1に示されているように小規模なモデル、小規模なステップ数の学習から得られた最適ピーク学習率から、より大規模かつlongrunの学習時の最適なピーク学習率を推定でき、これか分かるとsqrt(T)倍することで基準値η_refを得る。この基準値η_refと
L_inf(N)(モデルパラメータNの元での損失の加減)とQ(N)(なんらかの定数q_1, q_2に基づいて定義されるようだがよくわかっていない)を線形回帰で予測することで、最終損失も予測できる、という感じのようである。
[Paper Note] Controlled LLM Training on Spectral Sphere, Tian Xie+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #Pretraining #MachineLearning #NLP #LanguageModel #Stability Issue Date: 2026-01-23 GPT Summary- 大規模モデルの最適化には、安定性と迅速な収束を保証する戦略が不可欠。新たに導入したスペクトルスフィアオプティマイザー(SSO)は、重みと更新に厳密なスペクトル制約を適用し、完全に安定した最適化プロセスを実現。多様なモデルアーキテクチャでの事前トレーニングにより、SSOはAdamWやMuonよりも一貫して高い性能を示し、安定性の向上も確認された。
[Paper Note] Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers, Maksim Velikanov+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NeuralNetwork #Pretraining #NLP #LanguageModel #read-later Issue Date: 2026-01-09 GPT Summary- 重み減衰(WD)を行列層に適用する際のノイズ平衡を改善するため、学習可能な乗数を導入。これにより、データに適応したスケールを学習し、性能を向上させる。行と列のノルムにも乗数を適用し、表現力を高める。提案手法は、計算オーバーヘッドを削減し、実用的な問題を解決。AdamおよびMuonオプティマイザでの検証により、下流評価での改善を確認。 Comment
元ポスト:
[Paper Note] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning, Zhiyuan Fan+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning Issue Date: 2025-10-28 GPT Summary- 経験的スケーリング法則と最大更新パラメータ化($\mu$P)を考慮し、幅にわたるサブレイヤーのゲインを保持するための重み減衰スケーリングルールを提案。特異値スペクトルのスケーリング観察に基づき、サブレイヤーゲインを幅不変に保つルールを導出し、プロキシからターゲット幅への学習率と重み減衰のゼロショット転送を実現。LLaMAスタイルのトランスフォーマーで検証し、オプティマイザによるスケール制御が$\mu$Pの拡張に寄与することを示す。 Comment
元ポスト:
[Paper Note] Weight Decay may matter more than muP for Learning Rate Transfer in Practice, Atli Kosson+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NeuralNetwork #Analysis #MachineLearning #ZeroshotHyperparameterTransfer #LearningRate Issue Date: 2025-10-28 GPT Summary- 学習率の転送は、ニューラルネットワークの効率的なトレーニングを可能にする。Maximal Update Parameterization(muP)は、内部表現の更新を安定させる学習率スケーリングを提案するが、その仮定は実際のトレーニングでは短期間しか維持されないことが示された。トレーニングの後半では、重み減衰が内部表現の安定に寄与し、学習率の転送を促進する。これにより、muPは主に学習率のウォームアップとして機能し、修正されたウォームアップスケジュールで置き換え可能であることが示唆される。これらの結果は、学習率の転送に関する従来の考え方に挑戦し、muPの成功には独立した重み減衰が必要であることを示す。 Comment
元ポスト:
[Paper Note] Optimization Benchmark for Diffusion Models on Dynamical Systems, Fabian Schaipp, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #MachineLearning #DiffusionModel Issue Date: 2025-10-26 GPT Summary- 拡散モデルのトレーニングにおける最適化手法を評価し、MuonとSOAPがAdamWに対して効率的な代替手段であることを示し、最終損失が18%低下することを観察。さらに、学習率スケジュールやAdamとSGDのパフォーマンスギャップなど、トレーニングダイナミクスに関連する現象を再考。 Comment
元ポスト:
[Paper Note] Cautious Weight Decay, Lizhang Chen+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #NLP #LanguageModel #Transformer Issue Date: 2025-10-16 GPT Summary- Cautious Weight Decay(CWD)は、オプティマイザに依存しない修正で、更新と符号が一致するパラメータにのみウェイト減衰を適用します。これにより、元の損失を保持しつつ、局所的なパレート最適点を探索可能にします。CWDは、既存のオプティマイザに簡単に適用でき、新たなハイパーパラメータを必要とせず、言語モデルの事前学習やImageNet分類で損失と精度を向上させます。 Comment
元ポスト:
[Paper Note] The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton, Natalie Abreu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel Issue Date: 2025-10-15 GPT Summary- LLMの事前学習における計算効率向上のため、フルガウス-ニュートン(GN)前処理を最大150Mパラメータのトランスフォーマーモデルに適用。実験により、GN更新がトレーニングの反復回数を5.4倍削減し、層間情報を無視した層別GN前処理器がフルGNに近い性能を示すことが判明。これにより、GN近似の効果や層別ヘッセ行列の情報の重要性、近似手法と理想的な層別オラクルとの性能ギャップが明らかになった。 Comment
元ポスト:
[Paper Note] Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking, Yuandong Tian, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NeuralNetwork #Analysis #MachineLearning #Grokking Issue Date: 2025-10-10 GPT Summary- grokkingの現象を理解するために、2層の非線形ネットワークにおける新しい枠組み$\mathbf{Li_2}$を提案。これには、怠惰な学習、独立した特徴学習、相互作用する特徴学習の3段階が含まれる。怠惰な学習では、モデルが隠れ表現に過剰適合し、独立した特徴が学習される。後半段階では、隠れノードが相互作用を始め、学習すべき特徴に焦点を当てることが示される。本研究は、grokkingにおけるハイパーパラメータの役割を明らかにし、特徴の出現と一般化に関するスケーリング法則を導出する。 Comment
元ポスト:
[Paper Note] Muon Outperforms Adam in Tail-End Associative Memory Learning, Shuche Wang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel Issue Date: 2025-10-08 GPT Summary- Muonオプティマイザーは、LLMsのトレーニングにおいてAdamよりも高速であり、そのメカニズムを連想記憶の観点から解明。VOアテンションウェイトとFFNがMuonの優位性の要因であり、重い尾を持つデータにおいて尾クラスを効果的に最適化する。Muonは一貫したバランスの取れた学習を実現し、Adamは不均衡を引き起こす可能性がある。これにより、Muonの更新ルールが重い尾を持つ分布における効果的な学習を可能にすることが示された。 Comment
元ポスト:
[Paper Note] Benchmarking Optimizers for Large Language Model Pretraining, Andrei Semenov+, arXiv'25
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #read-later Issue Date: 2025-09-03 GPT Summary- 最近のLLMsの発展に伴い、最適化手法の多様な主張があるが、実験プロトコルの違いにより比較が難しい。本研究では、標準化されたLLMの事前トレーニングにおける最適化技術を評価し、モデルサイズやバッチサイズを変化させて最適なオプティマイザを提案。研究が将来の最適化研究の方向性を示し、コードを公開することで再現性を確保し、手法の開発に寄与することを目指す。 Comment
元ポスト:
関連:
- [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25
上記論文と知見が一致する部分、異なる部分は何だろうか?
[Paper Note] SOAP: Improving and Stabilizing Shampoo using Adam, Nikhil Vyas+, ICLR'25
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ICLR Issue Date: 2025-09-03 GPT Summary- Shampooという前処理法が深層学習の最適化タスクで効果的である一方、追加のハイパーパラメータと計算オーバーヘッドが課題である。本研究では、ShampooとAdafactorの関係を明らかにし、Shampooを基にした新しいアルゴリズムSOAPを提案。SOAPは、Adamと同様に第二モーメントの移動平均を更新し、計算効率を改善。実験では、SOAPがAdamWに対して40%以上のイテレーション数削減、35%以上の経過時間短縮を達成し、Shampooに対しても約20%の改善を示した。SOAPの実装は公開されている。 Comment
openreview: https://openreview.net/forum?id=IDxZhXrpNf
[Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 GPT Summary- AdamWは言語モデルの事前学習で広く使用されているオプティマイザですが、代替オプティマイザが1.4倍から2倍のスピードアップを提供するという主張には二つの欠点があると指摘。これらは不均等なハイパーパラメータ調整と誤解を招く評価設定であり、10種類のオプティマイザを系統的に研究することで、公正な比較の重要性を示した。特に、最適なハイパーパラメータはオプティマイザごとに異なり、モデルサイズが大きくなるにつれてスピードアップ効果が減少することが明らかになった。最も高速なオプティマイザは行列ベースの前処理器を使用しているが、その効果はモデルスケールに反比例する。 Comment
元ポスト:
重要そうに見える
関連:
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
- [Paper Note] SOAP: Improving and Stabilizing Shampoo using Adam, Nikhil Vyas+, ICLR'25
著者ポスト:
-
-
考察:
[Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training, Changxin Tian+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #read-later #Selected Papers/Blogs #ModelMerge #Stability Issue Date: 2025-08-02 GPT Summary- 学習率スケジューリングの新たなアプローチとして、Warmup-Stable and Merge(WSM)を提案。WSMは、学習率の減衰とモデルマージの関係を確立し、さまざまな減衰戦略を統一的に扱う。実験により、マージ期間がモデル性能において重要であることを示し、従来のWSDアプローチを上回る性能向上を達成。特に、MATHで+3.5%、HumanEvalで+2.9%、MMLU-Proで+5.5%の改善を記録。 Comment
元ポスト:
Weight Decayを無くせるらしい
エッセンスの解説:
チェックポイントさえ保存しておいて事後的に活用することだで、細かなハイパラ調整のための試行錯誤する手間と膨大な計算コストがなくなるのであれば相当素晴らしいのでは…?
解説:
[Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #read-later #Selected Papers/Blogs Issue Date: 2025-07-14 GPT Summary- Muonオプティマイザーを大規模モデルにスケールアップするために、ウェイトデケイとパラメータごとの更新スケール調整を導入。これにより、Muonは大規模トレーニングで即座に機能し、計算効率がAdamWの約2倍に向上。新たに提案するMoonlightモデルは、少ないトレーニングFLOPで優れたパフォーマンスを達成し、オープンソースの分散Muon実装や事前トレーニング済みモデルも公開。 Comment
解説ポスト:
こちらでも紹介されている:
- きみはNanoGPT speedrunを知っているか?, PredNext, 2025.07
解説:
[Paper Note] WHEN DOES SECOND-ORDER OPTIMIZATION SPEED UP TRAINING?, Ishikawa+, ICLR'24 Tiny Paper
Paper/Blog Link My Issue
#NeuralNetwork #Analysis #MachineLearning Issue Date: 2025-10-28 GPT Summary- 二次最適化手法の使用が限られている理由を探り、特にバッチサイズとデータセットサイズに基づく条件を特定。実証的に、大きなバッチサイズと小さなデータセットサイズの組み合わせで二次最適化が一次最適化を上回ることを発見。 Comment
元ポスト:
[Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #Transformer #ICML #read-later #ZeroshotHyperparameterTransfer #LearningRate Issue Date: 2025-08-31 GPT Summary- モデルのスケーリングには、パラメータ化やオプティマイザの選択が重要である。本研究では、パラメータとデータの整合性に関する新しい視点を提案し、広範なオプティマイザと学習率の組み合わせで数万のモデルを訓練した結果、最適な学習率スケーリングが重要であることを発見。新しい層ごとの学習率の処方は従来の方法を上回る性能を示し、Adamのイプシロンパラメータの適切なスケーリングが必要であることを明らかにし、数値的に安定した新しいAdamバージョンであるAdam-atan2を提案した。
ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate, Shohei Taniguchi+, NeurIPS'24
Paper/Blog Link My Issue
#MachineLearning Issue Date: 2024-11-06 GPT Summary- ADOPTという新しい適応勾配法を提案し、任意のハイパーパラメータ$\beta_2$で最適な収束率を達成。勾配の二次モーメント推定からの除去と更新順序の変更により、Adamの非収束問題を解決。広範なタスクで優れた結果を示し、実装はGitHubで公開。 Comment
画像は元ツイートからの引用:
ライブラリがあるようで、1行変えるだけですぐ使えるとのこと。
元ツイート:
Adamでは収束しなかった場合(バッチサイズが小さい場合)でも収束するようになっている模様
[Paper Note] Prodigy: An Expeditiously Adaptive Parameter-Free Learner, Konstantin Mishchenko+, arXiv'23, 2023.06
Paper/Blog Link My Issue
#MachineLearning #learning-rate-free Issue Date: 2025-10-26 GPT Summary- 学習率の推定問題に対処するため、Prodigyというアルゴリズムを提案。これはD-Adaptation手法を修正し、収束率を改善。12のベンチマークデータセットでテストした結果、ProdigyはD-Adaptationを上回り、手動調整されたAdamに近い精度を達成。 Comment
openreview: https://openreview.net/forum?id=WpQbM1kBuy
DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule, Maor Ivgi+, N_A, ICML'23
Paper/Blog Link My Issue
#MachineLearning Issue Date: 2023-07-25 GPT Summary- 私たちは、チューニング不要の動的SGDステップサイズの式であるDoGを提案します。DoGは、初期点からの距離と勾配のノルムに基づいてステップサイズを計算し、学習率のパラメータを必要としません。理論的には、DoGの式は確率的凸最適化においてパラメータフリーの収束を保証します。実験的には、DoGのパフォーマンスがチューニングされた学習率を持つSGDに近いことを示し、DoGのバリアントがチューニングされたSGDやAdamを上回ることを示します。PyTorchの実装はhttps://github.com/formll/dogで利用できます。 Comment
20 を超える多様なタスクと 8 つのビジョンおよび NLP モデルに対して有効であったシンプルなパラメーターフリーのoptimizer
元ツイート:
Large Batch Training of Convolutional Networks, Yang You+, N_A, arXiv'17
Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision Issue Date: 2023-12-13 GPT Summary- 大規模な畳み込みネットワークのトレーニングを高速化するために、新しいトレーニングアルゴリズムを提案しました。このアルゴリズムは、Layer-wise Adaptive Rate Scaling(LARS)を使用して、大きなバッチサイズでのトレーニングを行いながらモデルの精度を損なわずにトレーニングすることができます。具体的には、Alexnetを8Kのバッチサイズまでスケーリングし、Resnet-50を32Kのバッチサイズまでスケーリングしました。 Comment
BatchSizeを大きくすると性能が落ちますよ、系の話(CNN)
OpenReview:
https://openreview.net/forum?id=rJ4uaX2aW
ICLR'18にrejectされている
先行研究で提案よりも大きなバッチサイズを扱えるsynchronized SGDは強みだが、評価が一つのタスクのみなのでより増やした方がconvincingだということ、提案手法に追加のハイパーパラメータが必要な点が手法をless appealingにしてしまっていること、layer wise rate scailng (LARS)の理論的なjustificationが何か欲しいこと、先行研究との比較がクリアではないこと、などが理由な模様。
[Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16
Paper/Blog Link My Issue
#NeuralNetwork #Tutorial #MachineLearning #NLP Issue Date: 2025-08-02 GPT Summary- 勾配降下法の最適化アルゴリズムの挙動を理解し、活用するための直感を提供することを目的とした記事。さまざまなバリエーションや課題を要約し、一般的な最適化アルゴリズム、並列・分散設定のアーキテクチャ、追加戦略をレビュー。 Comment
元ポスト:
勉強用にメモ
[Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16, 2016.09
Paper/Blog Link My Issue
#NeuralNetwork #Tutorial #MachineLearning Issue Date: 2018-02-05 GPT Summary- 勾配降下最適化アルゴリズムの理解を深めるため、さまざまなバリエーションや課題を要約し、一般的なアルゴリズムを紹介。並列・分散設定のアーキテクチャや最適化戦略も検討。
[Paper Note] Preconditioned inexact stochastic ADMM for deep models, Nature Machine Intelligence 2026, 2026.02
Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #MachineLearning #NLP #LanguageModel #Initial Impression Notes #Nature Machine Intelligence Issue Date: 2026-02-24 Comment
元ポスト:
パラメータサイズが大きい場合にMuon超え...?
所見:
Beyond MuP: 2. Linear Layers and Steepest Descent, Scientific Spaces, 2026.02
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Blog #Stability Issue Date: 2026-02-16 Comment
元ポスト:
Fantastic Pretraining Optimizers and Where to Find Them 2.1: Hyperball Optimization, Wen+, 2026.01
Paper/Blog Link My Issue
#Article #NeuralNetwork #Pretraining #NLP #LanguageModel #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-22 Comment
元ポスト:
シンプルな手法(ネットワークの重みとoptimiserの更新量に対するフロベニウスノルムを正規化する)で、Weight Decayが不要で(スケジューラ等のハイパーパラメータから解放される)、Muonを含む様々なoptimiserでも機能して学習効率を高めるため、インパクトの大きな重要研究に見える
関連(concurrent works):
- [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11
- [Paper Note] Controlled LLM Training on Spectral Sphere, Tian Xie+, arXiv'26, 2026.01
NIIにおける大規模言語モデル構築事業の現在地, Yusuke Oda, 人工知能学会合同研究会 招待講演資料, 2025.12.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ExperimentManagement #Slide #Japanese #DataMixture Issue Date: 2025-12-09 Comment
WSD Scheduler:
- [Paper Note] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies, Shengding Hu+, COLM'24
元ポスト:
[Thread Memo] 最近の最適化に関する研究についての見解, Seunghyun Seo, 2025.10
Paper/Blog Link My Issue
#Article #NeuralNetwork #Post Issue Date: 2025-10-28 Comment
関連:
- [Paper Note] Weight Decay may matter more than muP for Learning Rate Transfer in
Practice, Atli Kosson+, arXiv'25, 2025.10
- [Paper Note] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning, Zhiyuan Fan+, arXiv'25, 2025.10
- [Paper Note] WHEN DOES SECOND-ORDER OPTIMIZATION SPEED UP TRAINING?, Ishikawa+, ICLR'24 Tiny Paper
- [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25
Modular Manifolds, Jeremy Bernstein+, THINKING MACHINES, 2025.09
Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #NLP #Blog #read-later Issue Date: 2025-09-27 Comment
関連:
Modded-NanoGPT, KellerJordan, 2024.05
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #Repository #Selected Papers/Blogs #Decoder Issue Date: 2025-07-15 Comment
NanoGPT speedrun
関連:
- [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25
- きみはNanoGPT speedrunを知っているか?, PredNext, 2025.07
きみはNanoGPT speedrunを知っているか?, PredNext, 2025.07
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Blog Issue Date: 2025-07-15
Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #Reference Collection Issue Date: 2025-07-12 Comment
元ポスト:
1T-A32Bのモデル。さすがに高性能。
(追記) Reasoningモデルではないのにこの性能のようである。
1T-A32Bのモデルを15.5Tトークン訓練するのに一度もtraining instabilityがなかったらしい
元ポスト:
量子化したモデルが出た模様:
仕事早すぎる
DeepSeek V3/R1とのアーキテクチャの違い:
MLAのヘッドの数が減り、エキスパートの数を増加させている
解説ポスト:
利用されているOptimizer:
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
2つほどバグがあり修正された模様:
chatbot arenaでOpenLLMの中でトップのスコア
元ポスト:
テクニカルペーパーが公開:
https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf
元ポスト:
テクニカルレポートまとめ:
以下のような技術が使われている模様
- [Paper Note] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, ICLR'26, 2025.05
- MLA MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- MuonCip
- MuonOptimizer [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
- QK-Clip
- 参考(こちらはLayerNormを使っているが): [Paper Note] Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, CVPR'24, 2023.12
- RLVR
- DeepSeek-R1, DeepSeek, 2025.01
- Self-Critique
- 関連: [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25
- [Paper Note] Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards, Xun Lu, arXiv'25
- Temperature Decay
- 最初はTemperatureを高めにした探索多めに、後半はTemperatureを低めにして効用多めになるようにスケジューリング
- Tool useのためのSynthetic Data
Reward Hackingに対処するため、RLVRではなくpairwise comparisonに基づくself judging w/ critique を利用きており、これが非常に効果的な可能性があるのでは、という意見がある:
最近のOptimizerの研究について, Hiroyuki Tokunaga, 2024.12
Paper/Blog Link My Issue
#Article #MachineLearning Issue Date: 2024-12-12 Comment
- ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate, Shohei Taniguchi+, NeurIPS'24
↑以外にもめちゃめちゃたくさんのOptimizerの研究が紹介されており大変勉強になる。
【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法-, omiita, 2019.12
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #MachineLearning #NLP #Blog Issue Date: 2021-07-16
