上一页 1 2 3 4 5 6 ··· 107 下一页
摘要: 我们构建的tokenizer是包含一个<UNK>的,我们没见过的词都嵌入到<UNK>中,如下 这看起来不是很好,因为我们没见过的词不仅包含不在预训练词表中的,还包含图中所说的几种情况:变种(taaaaasty,可能是某一位网友故意这么打来强调美味),拼写错误和新单词 还有一种情形就是书上说的同一动词 阅读全文
posted @ 2025-03-11 15:45 最爱丁珰 阅读(10) 评论(0) 推荐(0) 编辑
摘要: (3) P116的说明,感觉就是矩阵的特征值与矩阵的乘积很相关,所以要控制梯度矩阵的特征值 (4) 采用该方法的主要原因是通过动态调整每层的学习率来维持训练的稳定性,具体分析如下: 梯度与权重的平衡: 权重的范数((|w^l|))反映参数的当前幅值,梯度范数((|\nabla L(w 阅读全文
posted @ 2025-03-11 14:42 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: (3) 为什么预测的时候还需要存储中间变量z,h,o,我们直接释放掉不就行了吗? 实际上存储不是这么理解的,我们计算了z,h,o就势必在某一个时刻会将其作为临时变量存储在内存中(尽管这个时间可能非常短),这个样子仍然是消耗了内存的,我们也要算上 阅读全文
posted @ 2025-03-11 09:46 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: (7) 解答: 开发一种新的噪声注入技术以替代暂退法,可从以下方向探索: 1. 高斯噪声注入(Gaussian Noise Injection) 方法:在每一层的激活值后加入零均值的高斯噪声 ϵN(0,σ2),噪声强度 $ 阅读全文
posted @ 2025-03-11 09:32 最爱丁珰 阅读(5) 评论(0) 推荐(0) 编辑
摘要: (4) 佛罗贝尼乌斯范数的平方可以通过矩阵的迹运算表示,类似于向量的L2范数平方形式。具体来说: 对于向量 w,其L2范数平方为 |w|22=ww。 对于矩阵 A,其佛罗贝尼乌斯范数平方为: \[\|A\|_F^2 = \text{trace}(A 阅读全文
posted @ 2025-03-11 08:45 最爱丁珰 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 下面介绍一下坐标系中协变量偏移的情况 如上图,绿色的曲线是正确的曲线。我们训练的数据是左图,测试的数据是右图。按照左图的数据学习是学不出来绿色曲线的,就会导致右图的数据的准确率很低,这就是协变量偏移 阅读全文
posted @ 2025-03-10 22:19 最爱丁珰 阅读(5) 评论(0) 推荐(0) 编辑
摘要: Batch Norm就可以在一定程度上解决协变量偏移问题,其通过将每一层的z[l]标准化,可以大概固定z[l],无论输入是怎么样的。也就是说,这样子在一定程度上让各层的输入数据是独立的(输入数据都可以看做时来自均值为0方差为1阅读全文
posted @ 2025-03-10 22:18 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 以前我们对局部最优解的理解不是非常准确。实际上,在高维空间中的某一个点的梯度为0,意味着其四面八方的极小一段区域都是平的,但是不代表其是极值点,因为要让每个极小区域都向上或者向下的概率是非常小的,我们更多遇到的应该是鞍点,如下 也就是一些方向是向上的,另一些方向是向下的 也就是局部最优点不太 阅读全文
posted @ 2025-03-10 21:56 最爱丁珰 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 看看批量梯度下降和小批量梯度下降的图形,与我们的理解是相符的 注意到小批量梯度下降不是严格单减的,只是趋势是单调减少的(图中的纵轴Cost指的是对于整个训练数据的损失) 每次的批量的大小显然是一个超参数。当批量大小为1的时候叫做随机梯度下降,当批量大小为m的时候叫做批量梯度下降。前者 阅读全文
posted @ 2025-03-10 21:45 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 介绍一种正则化的方法叫做早停法。其实很简单,就是训练的轮数越多,训练误差肯定会单调下降,但是验证误差是一个凹函数,我们停在测试误差的极值点就好了。注意运用早停法的话就不要用其他正则化方法了,所以早停法有个缺点就是训练误差可能比较大,优点就是需要的计算资源比较少,因为超参数少了 阅读全文
posted @ 2025-03-10 21:29 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 107 下一页
点击右上角即可分享
微信分享提示