摘要: 1、梯度裁剪原理(http://blog.csdn.net/qq_29340857/article/details/70574528) 既然在BP过程中会产生梯度消失/爆炸(就是偏导无限接近0,导致长时记忆无法更新),那么最简单粗暴的方法,设定阈值,当梯度小于/大于阈值时,更新的梯度为阈值,如下图所 阅读全文
posted @ 2021-10-22 16:06 哈哈哈喽喽喽 阅读(714) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/375224982 梯度缩放 如果特定op的正向传递具有浮点16输入,则该op的反向传递将产生浮点16梯度。具有小幅度的梯度值可能无法在浮点16中表示。这些值将刷新为零(“下溢”),因此相应参数的更新将丢失。 为了防止下溢,"梯度缩放"将网络 阅读全文
posted @ 2021-10-22 15:30 哈哈哈喽喽喽 阅读(3532) 评论(0) 推荐(0) 编辑
摘要: 什么是EMA? 滑动平均(exponential moving average),或者叫做指数加权平均(exponentially weighted moving average),可以用来估计变量的局部均值,使得变量的更新与一段时间内的历史取值有关。 滑动平均可以看作是变量的过去一段时间取值的均值 阅读全文
posted @ 2021-10-22 14:43 哈哈哈喽喽喽 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 一、weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂 阅读全文
posted @ 2021-10-22 11:38 哈哈哈喽喽喽 阅读(1346) 评论(0) 推荐(0) 编辑
摘要: 1、余弦退火https://arxiv.org/pdf/1812.01187.pdf Learning rate adjustment is crucial to the training. After the learning rate warmup described in Section 3. 阅读全文
posted @ 2021-10-22 11:19 哈哈哈喽喽喽 阅读(27) 评论(0) 推荐(0) 编辑
摘要: torch.flip(input, dims) → Tensor 翻转dims数组中的维度 Parameters input (Tensor) – the input tensor. dims (a list or tuple) – axis to flip on 例子: import torch 阅读全文
posted @ 2021-10-22 10:11 哈哈哈喽喽喽 阅读(1166) 评论(0) 推荐(0) 编辑