nvidia apex Gradient overflow. Skipping step, loss scaler 0 reducing loss scale to 131072.0
https://blog.csdn.net/gzq0723/article/details/105885088
也有大佬说一开始梯度爆炸是正常的 https://zhuanlan.zhihu.com/p/79887894
混合精度计算(Mixed Precision),并介绍一款Nvidia开发的基于PyTorch的混合精度训练加速神器--Apex,
最近Apex更新了API,可以用短短三行代码就能实现不同程度的混合精度加速,训练时间直接缩小一半。