摘要: 1.梯度裁剪 在BP过程中会产生梯度消失(就是偏导无限接近0,导致长时记忆无法更新)(特别是RNN,LSTM,Transformer),那么最简单粗暴的方法,设定阈值,当梯度小于阈值时,更新的梯度为阈值,如下图所示: 优点:简单粗暴 缺点:很难找到满意的阈值 2.nn.utils.clip_grad 阅读全文
posted @ 2021-06-24 11:07 飘零_未知的坚持 阅读(392) 评论(0) 推荐(0) 编辑