DistributedLearningに関する論文・技術記事メモの一覧

DistributedLearning

[Paper Note] Decoupled DiLoCo for Resilient Distributed Pre-training, Arthur Douillard+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2026-04-26 GPT Summary- Decoupled DiLoCoは、SPMDパラダイムの同期障害を克服し、計算を複数の独立したlearnerに分割。各learnerは非同期で内的最適化を行い、故障や遅延を最小化する手法を用いて集約。これにより、トレーニング効率を大幅に改善し、テキストやビジョンタスクで競争力のある性能を維持。 Comment

元ポスト:

Loading…

[Paper Note] Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch, Arthur Douillard+, COLM'25, 2025.01

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #COLM Issue Date: 2026-04-26 GPT Summary- 大規模言語モデルの学習において、通信帯域幅の要求を減少させるため、パラメータのサブセットのみを順次同期し、学習を継続しながらデータを量子化。これにより、必要な帯域幅を約100分の1に削減し、品質を維持したまま十億規模のパラメータの分散学習を実現。 Comment

先行研究:
- [Paper Note] DiLoCo: Distributed Low-Communication Training of Language Models, Arthur Douillard+, ICML'24 Workshop WANT

openreview: https://openreview.net/forum?id=yYk3zK0X6Q

DiLoCoでは、データをsplitし異なるノードに持たせ、それぞれのノードが独立して学習した後、定期的にモデルの重みを同期するような枠組みを提案した。

本研究では、重みを同期する際のボトルネックを
- 全ての重みを一度に同期するのではなく、サブセットを共有し、
- 共有する勾配を4bitに量子化することで通信に必要なピーク帯域幅を削減することでlatencyを最小化し、
- 重みを共有している間も学習は継続するstreamingの性質を持たせる

ことで、通信コストを低減しつつ学習効率を改善したようである。

[Paper Note] DiLoCo: Distributed Low-Communication Training of Language Models, Arthur Douillard+, ICML'24 Workshop WANT

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ICML #mid-training #Selected Papers/Blogs #Workshop #One-Line Notes #needs-revision Issue Date: 2025-07-15 GPT Summary- 分散最適化アルゴリズム「DiLoCo」を提案し、接続が不十分なデバイスでのLLMトレーニングを可能にする。DiLoCoは、通信量を500分の1に抑えつつ、完全同期の最適化と同等の性能をC4データセットで発揮。各ワーカーのデータ分布に対して高いロバスト性を持ち、リソースの変動にも柔軟に対応可能。 Comment

openreview: https://openreview.net/forum?id=pICSfWkJIk&referrer=%5Bthe%20profile%20of%20MarcAurelio%20Ranzato%5D(%2Fprofile%3Fid%3D~MarcAurelio_Ranzato1)

言語モデルの分散学習における通信量をいかに抑えるかにフォーカスした研究で、クライアントごとに異なるデータsplitを持ち、当該データによってモデルをローカルでAdamWを用いてH step更新。その後、更新された重みの差分をouter gradientとして共有し、重み更新の差分を平均化することでローカルモデルを集約するという処理を繰り返す。

先行研究:
- [Paper Note] Communication-Efficient Learning of Deep Networks from Decentralized Data, H. Brendan McMahan+, AISTATS'17, 2016.02

[Paper Note] Communication-Efficient Learning of Deep Networks from Decentralized Data, H. Brendan McMahan+, AISTATS'17, 2016.02

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #AISTATS Issue Date: 2026-04-26 GPT Summary- モバイル端末上のデータを用いて、プライバシーを保ちながら学習モデルを改善するために、「フェデレーテッド学習」を提案。反復的なモデル平均化に基づく方法で、五つのモデルアーキテクチャと四つのデータセットで実証評価を実施。非均衡かつ非IIDデータに対し頑健で、通信コストを大幅に削減できることを示した。

大規模モデルを支える分散並列学習のしくみ Part1, Kazuki Fujii, 2023.06

Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #NLP #LanguageModel #Blog Issue Date: 2023-12-13