全切片数据并行(Fully Sharded Data
Parallel,简称为FSDP)是数据并行的一种新的方式,FSDP最早是在2021年在FairScale-FSDP中提出的,后来合入了PyTorch
1.11版本中。微软之前Deepspeed框架中提出过三种级别的ZERO算法,FSDP可以看成是ZERO-3的实现。
MegatronLM的第三篇论文【Reducing Activation
Recomputation in Large Transformer
Models】是2022年出的。在大模型训练过程中显存占用过大往往成为瓶颈,一般会通过recomputation重计算的方式降低显存占用,但会带来额外的计算代价。这篇论文提出了两种方法,分别是sequece parallel和selective activation recomputation,这两种方法和Tensor并行是可以相结合的,可以有效减少不必要的计算量。