DistributedLearning
[Paper Note] Decoupled DiLoCo for Resilient Distributed Pre-training, Arthur Douillard+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2026-04-26 GPT Summary- Decoupled DiLoCoは、SPMDパラダイムの同期障害を克服し、計算を複数の独立したlearnerに分割。各learnerは非同期で内的最適化を行い、故障や遅延を最小化する手法を用いて集約。これにより、トレーニング効率を大幅に改善し、テキストやビジョンタスクで競争力のある性能を維持。 Comment
元ポスト:
関連:
- [Paper Note] Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch, Arthur Douillard+, COLM'25, 2025.01
- [Paper Note] DiLoCo: Distributed Low-Communication Training of Language Models, Arthur Douillard+, ICML'24 Workshop WANT
- [Paper Note] Communication-Efficient Learning of Deep Networks from Decentralized Data, H. Brendan McMahan+, AISTATS'17, 2016.02
[Paper Note] Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch, Arthur Douillard+, COLM'25, 2025.01
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #COLM Issue Date: 2026-04-26 GPT Summary- 大規模言語モデルの学習において、通信帯域幅の要求を減少させるため、パラメータのサブセットのみを順次同期し、学習を継続しながらデータを量子化。これにより、必要な帯域幅を約100分の1に削減し、品質を維持したまま十億規模のパラメータの分散学習を実現。 Comment
openreview: https://openreview.net/forum?id=yYk3zK0X6Q
DiLoCoでは、データをsplitし異なるノードに持たせ、それぞれのノードが独立して学習した後、定期的にモデルの重みを同期するような枠組みを提案した。
本研究では、重みを同期する際のボトルネックを
- 全ての重みを一度に同期するのではなく、サブセットを共有し、
- 共有する勾配を4bitに量子化することで通信に必要なピーク帯域幅を削減することでlatencyを最小化し、
- 重みを共有している間も学習は継続するstreamingの性質を持たせる
ことで、通信コストを低減しつつ学習効率を改善したようである。
[Paper Note] DiLoCo: Distributed Low-Communication Training of Language Models, Arthur Douillard+, ICML'24 Workshop WANT
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ICML #mid-training #Selected Papers/Blogs #Workshop #One-Line Notes #needs-revision Issue Date: 2025-07-15 GPT Summary- 分散最適化アルゴリズム「DiLoCo」を提案し、接続が不十分なデバイスでのLLMトレーニングを可能にする。DiLoCoは、通信量を500分の1に抑えつつ、完全同期の最適化と同等の性能をC4データセットで発揮。各ワーカーのデータ分布に対して高いロバスト性を持ち、リソースの変動にも柔軟に対応可能。 Comment
言語モデルの分散学習における通信量をいかに抑えるかにフォーカスした研究で、クライアントごとに異なるデータsplitを持ち、当該データによってモデルをローカルでAdamWを用いてH step更新。その後、更新された重みの差分をouter gradientとして共有し、重み更新の差分を平均化することでローカルモデルを集約するという処理を繰り返す。
[Paper Note] Communication-Efficient Learning of Deep Networks from Decentralized Data, H. Brendan McMahan+, AISTATS'17, 2016.02
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #AISTATS Issue Date: 2026-04-26 GPT Summary- モバイル端末上のデータを用いて、プライバシーを保ちながら学習モデルを改善するために、「フェデレーテッド学習」を提案。反復的なモデル平均化に基づく方法で、五つのモデルアーキテクチャと四つのデータセットで実証評価を実施。非均衡かつ非IIDデータに対し頑健で、通信コストを大幅に削減できることを示した。
大規模モデルを支える分散並列学習のしくみ Part1, Kazuki Fujii, 2023.06
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #NLP #LanguageModel #Blog Issue Date: 2023-12-13
