2020 年 2月 29 日随笔档案 - 金思远

2020年2月29日

摘要：一、梯度爆炸/消失首先我们需要知道梯度爆炸或消失的原因，我们观察Tanh这个激活函数可知，当Z接近于0时，输出A与Z的关系接近线性。因此当神经网络的深度较大时，我们假设b的初始化参数为0，则有 $\widehat{\mathrm{y}}=\mathrm{w}^{[\mathrm{ll}} \m 阅读全文

posted @ 2020-02-29 22:53 金思远阅读(321) 评论(0) 推荐(0) 编辑

归一化能够加速训练的原因

摘要：这里引用吴恩达教授在课程中的截图。一、 w，b分布我们首先分析一下为什么非归一化的的cost呈现这种分布。对于一个没有归一化的数据，X和Y可能呈现很大的数量级差距，如果X相较于Y非常大的话，改变W对Z的影响将会相对b来说非常大。举个例子，如果Y在0,1之间，而X在100000以上，在梯度下降阅读全文

posted @ 2020-02-29 22:25 金思远阅读(540) 评论(0) 推荐(1) 编辑

正则化可以防止过拟合的原因

摘要：一、过拟合首先我们需要明白什么是过拟合，由下图可知，对于（2）图则是出现了非常明显的过拟合。从图中我们可以发现过拟合的特征，具有非常强的非线性特征，几乎让训练误差接近于0。二、正则化的思路对于正则化，我们则是想要降低这种非线性的特征。这是我们的目的，我们来观察一下我们的非线性特征产生的原阅读全文

posted @ 2020-02-29 21:41 金思远阅读(381) 评论(0) 推荐(1) 编辑

关于周志华《机器学习》中假设空间规模大小65的计算

摘要：从西瓜的例子来看，色泽、根蒂、敲声每种特征均有三个属性。我们想要从所有可能性中抽取一条规则来定义什么瓜是好瓜。而我们的假设空间则包含所有可能性。这里我们可以从两个角度得到最终结果65。一、分别考虑现在我们一共有3个特征，如果我们只需要从3个特征中选取一个特征中作为最终的结果（这意味着剩余两个阅读全文

posted @ 2020-02-29 15:53 金思远阅读(1674) 评论(0) 推荐(1) 编辑

金思远

华南理工大学金融科技专业大三在读。QQ：710627820。欢迎交流。

公告