摘要: 梯度下降 ( "Boyd & Vandenberghe, 2004" ) 一维梯度下降 证明:沿梯度反方向移动自变量可以减小函数值 泰勒展开: $$ f(x+\epsilon)=f(x)+\epsilon f^{\prime}(x)+\mathcal{O}\left(\epsilon^{2}\rig 阅读全文
posted @ 2020-02-20 22:18 hichens 阅读(379) 评论(0) 推荐(0) 编辑
摘要: 优化与深度学习 优化与估计 尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。 优化方法目标:训练集损失函数值 深度学习目标:测试集损失函数值(泛化性) %matplotlib inline import sys sys.path.append('/h 阅读全文
posted @ 2020-02-20 22:17 hichens 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 批量归一化(BatchNormalization) 对输入的标准化(浅层模型) 处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。 标准化处理输入数据使各个特征的分布相近 批量归一化(深度模型) 利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的 阅读全文
posted @ 2020-02-20 22:16 hichens 阅读(897) 评论(0) 推荐(0) 编辑
摘要: 11.6 Momentum 在 "Section 11.4" 中,我们提到,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量 阅读全文
posted @ 2020-02-20 22:15 hichens 阅读(512) 评论(0) 推荐(0) 编辑
摘要: 词嵌入基础 我们在 "“循环神经网络的从零开始实现”" 一节中使用 one hot 向量表示单词,虽然它们构造起来很容易,但通常并不是一个好选择。一个主要的原因是,one hot 词向量无法准确表达不同词之间的相似度,如我们常常使用的余弦相似度。 Word2Vec 词嵌入工具的提出正是为了解决上面这 阅读全文
posted @ 2020-02-20 22:13 hichens 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 词嵌入进阶 在 "“Word2Vec的实现”" 一节中,我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型,并通过词向量的余弦相似度搜索近义词。虽然 Word2Vec 已经能够成功地将离散的单词转换为连续的词向量,并能一定程度上地保存词与词之间的近似关系,但 Word2Vec 模型仍不是完 阅读全文
posted @ 2020-02-20 22:10 hichens 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 今日学习 项目有关(dlib库学习, 看论文, 测试代码) 5h pytorch学习 2h ml代码 2h 阅读 pytorch 学习 "翻我牌子" dlib代码 "翻我牌子" 今日感想 1.花了一个月的时间证明在家学习效率感人。 幸好强迫自己每天打卡,不然真的要躺成废物了。今天,零零散散的玩了3h 阅读全文
posted @ 2020-02-20 08:40 hichens 阅读(166) 评论(0) 推荐(0) 编辑