在Megatron-LM/Pytorch运行中报错如下: 1.
No module named 'fused_layer_norm_cuda':
apex没有装或者装的不对,注意直接用pip install
apex装的不是真正的nvdia-apex,必须通过源码编译安装 2.
ModuleNotFoundError: No module named 'packaging':
在新版的apex上编译会遇到报错,需要切换到之前的代码版本 3.
No module named 'amp_C': 编译指令使用
pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./,编译后还需要额外执行python setup.py install
4.
ImportError: libc10.so: cannot open shared object file: No such file or directory:
libc10.so是跟着pytorch一起装的