Optimizer
#MachineLearning#Pocket
Issue Date: 2024-11-06 ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate, Shohei Taniguchi+, NeurIPS24 Comment画像は元ツイートからの引用:ライブラリがあるようで、1行変えるだけですぐ使えるとのこと。元ツイート:https:/Adam ... #MachineLearning#Pocket
Issue Date: 2023-07-25 DoG is SGDs Best Friend: A Parameter-Free Dynamic Step Size Schedule, Maor Ivgi+, N_A, ICML23 Summary私たちは、チューニング不要の動的SGDステップサイズの式であるDoGを提案します。DoGは、初期点からの距離と勾配のノルムに基づいてステップサイズを計算し、学習率のパラメータを必要としません。理論的には、DoGの式は確率的凸最適化においてパラメータフリーの収束を保証します。実験的には、DoGのパフォーマンスがチューニングされた学習率を持つSGDに近いことを示し、DoGのバリアントがチューニングされたSGDやAdamを上回ることを示します。PyTorchの実装はhttps://github.com/formll/dogで利用できます。 Comment20 を超える多様なタスクと 8 つのビジョンおよび NLP モデルに対して有効であったシンプルなパラメーターフリーのoptimizer 元ツイート: https://twitter.com/maorivg/status/1683525521471328256?s=46&t=Lt9P4Bkmi ... #NeuralNetwork#ComputerVision#Pocket
Issue Date: 2023-12-13 Large Batch Training of Convolutional Networks, Yang You+, N_A, arXiv17 Summary大規模な畳み込みネットワークのトレーニングを高速化するために、新しいトレーニングアルゴリズムを提案しました。このアルゴリズムは、Layer-wise Adaptive Rate Scaling(LARS)を使用して、大きなバッチサイズでのトレーニングを行いながらモデルの精度を損なわずにトレーニングすることができます。具体的には、Alexnetを8Kのバッチサイズまでスケーリングし、Resnet-50を32Kのバッチサイズまでスケーリングしました。 CommentBatchSizeを大きくすると性能が落ちますよ、系の話(CNN)OpenReview:https://openreview.net/forum?id=rJ4uaX2aWICLR'18にrejectされている先行研究で提案よりも大きなバッチサイズを扱えるsynchronized SGDは強みだが、評 ...
Issue Date: 2024-11-06 ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate, Shohei Taniguchi+, NeurIPS24 Comment画像は元ツイートからの引用:ライブラリがあるようで、1行変えるだけですぐ使えるとのこと。元ツイート:https:/Adam ... #MachineLearning#Pocket
Issue Date: 2023-07-25 DoG is SGDs Best Friend: A Parameter-Free Dynamic Step Size Schedule, Maor Ivgi+, N_A, ICML23 Summary私たちは、チューニング不要の動的SGDステップサイズの式であるDoGを提案します。DoGは、初期点からの距離と勾配のノルムに基づいてステップサイズを計算し、学習率のパラメータを必要としません。理論的には、DoGの式は確率的凸最適化においてパラメータフリーの収束を保証します。実験的には、DoGのパフォーマンスがチューニングされた学習率を持つSGDに近いことを示し、DoGのバリアントがチューニングされたSGDやAdamを上回ることを示します。PyTorchの実装はhttps://github.com/formll/dogで利用できます。 Comment20 を超える多様なタスクと 8 つのビジョンおよび NLP モデルに対して有効であったシンプルなパラメーターフリーのoptimizer 元ツイート: https://twitter.com/maorivg/status/1683525521471328256?s=46&t=Lt9P4Bkmi ... #NeuralNetwork#ComputerVision#Pocket
Issue Date: 2023-12-13 Large Batch Training of Convolutional Networks, Yang You+, N_A, arXiv17 Summary大規模な畳み込みネットワークのトレーニングを高速化するために、新しいトレーニングアルゴリズムを提案しました。このアルゴリズムは、Layer-wise Adaptive Rate Scaling(LARS)を使用して、大きなバッチサイズでのトレーニングを行いながらモデルの精度を損なわずにトレーニングすることができます。具体的には、Alexnetを8Kのバッチサイズまでスケーリングし、Resnet-50を32Kのバッチサイズまでスケーリングしました。 CommentBatchSizeを大きくすると性能が落ちますよ、系の話(CNN)OpenReview:https://openreview.net/forum?id=rJ4uaX2aWICLR'18にrejectされている先行研究で提案よりも大きなバッチサイズを扱えるsynchronized SGDは強みだが、評 ...
#Article#MachineLearning
Issue Date: 2024-12-12 最近のOptimizerの研究について, Hiroyuki Tokunaga, 2024.12 Comment#1482↑以外にもめちゃめちゃたくさんのOptimizerの研究が紹介されており大変勉強になる。 ...
Issue Date: 2024-12-12 最近のOptimizerの研究について, Hiroyuki Tokunaga, 2024.12 Comment#1482↑以外にもめちゃめちゃたくさんのOptimizerの研究が紹介されており大変勉強になる。 ...