Parallelism

#EfficiencyImprovement#Pocket#NLP#LanguageModel#ACL
Issue Date: 2025-05-16 Sequence Parallelism: Long Sequence Training from System Perspective, Li+, ACL23 Comment入力系列をチャンクに分割して、デバイスごとに担当するチャンクを決めることで原理上無限の長さの系列を扱えるようにした並列化手法。系列をデバイス間で横断する場合attention scoreをどのように計算するかが課題になるが、そのためにRing Self attentionと呼ばれるアルゴリズムを提案 ...