详解MegatronLM Tensor模型并行训练(Tensor Parallel)
1. 背景介绍
MegatronLM
的第一篇论文【Megatron-LM: Training
Multi-Billion Parameter Language Models Using Model
Parallelism】是2020年出的,针对billion级别的模型进行训练,例如具有38亿参数的类GPT-2的transformer模型和具有39亿参数的BERT模型。
分布式训练的模型并行有两种方式,一种是层间并行(inter-layer),也就是Pipeline流水线并行,相当于下图对整个模型竖切后每个device各保存3个layer(0,1,2
和3,4,5
);一种是层内并行(intra-layer)的方式进行,也就是Tensor模型并行,相当于下图横切后每个device各保留6个layer的一半。