06 2021 档案

摘要:1.梯度裁剪 在BP过程中会产生梯度消失(就是偏导无限接近0,导致长时记忆无法更新)(特别是RNN,LSTM,Transformer),那么最简单粗暴的方法,设定阈值,当梯度小于阈值时,更新的梯度为阈值,如下图所示: 优点:简单粗暴 缺点:很难找到满意的阈值 2.nn.utils.clip_grad 阅读全文
posted @ 2021-06-24 11:07 飘零_未知的坚持 阅读(492) 评论(0) 推荐(0)
摘要:最近使用一个库,依赖apex。折腾一个早上才安装好。做记录以方便后来者。环境:系统: Windows 库:pytorch1.9.0cuda版本: 11.1 vs : 2019 vs补充说明,除 vs和默认推荐C++推荐安装外。遇到问题的时候,临时装 且没有重启电脑。理论上应该和apex安装无关。因为 阅读全文
posted @ 2021-06-16 15:32 飘零_未知的坚持 阅读(6267) 评论(1) 推荐(0)