摘要:
我们构建的tokenizer是包含一个<UNK>的,我们没见过的词都嵌入到<UNK>中,如下 这看起来不是很好,因为我们没见过的词不仅包含不在预训练词表中的,还包含图中所说的几种情况:变种(taaaaasty,可能是某一位网友故意这么打来强调美味),拼写错误和新单词 还有一种情形就是书上说的同一动词 阅读全文
摘要:
P116的说明,感觉就是矩阵的特征值与矩阵的乘积很相关,所以要控制梯度矩阵的特征值 采用该方法的主要原因是通过动态调整每层的学习率来维持训练的稳定性,具体分析如下: 梯度与权重的平衡: 权重的范数((|w^l|))反映参数的当前幅值,梯度范数((|\nabla L(w 阅读全文
摘要:
为什么预测的时候还需要存储中间变量 ,我们直接释放掉不就行了吗? 实际上存储不是这么理解的,我们计算了 就势必在某一个时刻会将其作为临时变量存储在内存中(尽管这个时间可能非常短),这个样子仍然是消耗了内存的,我们也要算上 阅读全文
摘要:
解答: 开发一种新的噪声注入技术以替代暂退法,可从以下方向探索: 1. 高斯噪声注入(Gaussian Noise Injection) 方法:在每一层的激活值后加入零均值的高斯噪声 ,噪声强度 $ 阅读全文
摘要:
佛罗贝尼乌斯范数的平方可以通过矩阵的迹运算表示,类似于向量的L2范数平方形式。具体来说: 对于向量 ,其L2范数平方为 。 对于矩阵 ,其佛罗贝尼乌斯范数平方为: \[\|A\|_F^2 = \text{trace}(A 阅读全文