摘要: 一、 梯度爆炸/消失 首先我们需要知道梯度爆炸或消失的原因,我们观察Tanh这个激活函数可知,当Z接近于0时,输出A与Z的关系接近线性。 因此当神经网络的深度较大时,我们假设b的初始化参数为0,则有 $\widehat{\mathrm{y}}=\mathrm{w}^{[\mathrm{ll}} \m 阅读全文
posted @ 2020-02-29 22:53 金思远 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 这里引用吴恩达教授在课程中的截图。 一、 w,b分布 我们首先分析一下为什么非归一化的的cost呈现这种分布。 对于一个没有归一化的数据,X和Y可能呈现很大的数量级差距,如果X相较于Y非常大的话,改变W对Z的影响将会相对b来说非常大。 举个例子,如果Y在0,1之间,而X在100000以上,在梯度下降 阅读全文
posted @ 2020-02-29 22:25 金思远 阅读(529) 评论(0) 推荐(1) 编辑
摘要: 一、 过拟合 首先我们需要明白什么是过拟合,由下图可知,对于(2)图则是出现了非常明显的过拟合。 从图中我们可以发现过拟合的特征,具有非常强的非线性特征,几乎让训练误差接近于0。 二、 正则化的思路 对于正则化,我们则是想要降低这种非线性的特征。这是我们的目的,我们来观察一下我们的非线性特征产生的原 阅读全文
posted @ 2020-02-29 21:41 金思远 阅读(327) 评论(0) 推荐(1) 编辑
摘要: 从西瓜的例子来看,色泽、根蒂、敲声每种特征均有三个属性。 我们想要从所有可能性中抽取一条规则来定义什么瓜是好瓜。而我们的假设空间则包含所有可能性。 这里我们可以从两个角度得到最终结果65。 一、分别考虑 现在我们一共有3个特征,如果我们只需要从3个特征中选取一个特征中作为最终的结果(这意味着剩余两个 阅读全文
posted @ 2020-02-29 15:53 金思远 阅读(1527) 评论(0) 推荐(1) 编辑