2019年7月15日
摘要: 梯度爆炸和梯度消失: W[i] > 1:梯度爆炸(呈指数级增长) W[i] < 1:梯度消失(呈指数级衰减) *.注意此时的1指单位矩阵,W也是系数矩阵 初始化权重: np.random.randn(shape)* np.sqrt(2/n[l-1]) Relu:np.sqrt(2/n[l-1]) T 阅读全文
posted @ 2019-07-15 15:06 NWNU-LHY 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 输入归一化 1,对每个特征零均值化 2,对每个特征归一化方差 注意:训练集和测试集要使用相同的均值和方差去归一化。 原本狭长的优化函数,要找到最小值,需要设置较小的学习率,并且进行多次迭代;而归一化以后变的更加圆,便于更加直接找到最小值,减少迭代次数。如图: 阅读全文
posted @ 2019-07-15 14:13 NWNU-LHY 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 所有的正则化方法来自于吴恩达老师的免费公开课:https://mooc.study.163.com/learn/2001281003?tid=2001391036#/learn/content?type=detail&id=2001701045 1.矩阵L2正则化(Frobenius范数),有时也称 阅读全文
posted @ 2019-07-15 11:42 NWNU-LHY 阅读(123) 评论(0) 推荐(0) 编辑
摘要: Error | 误差 Bias | 偏差 – 衡量准确性 Variance | 方差 – 衡量稳定性 首先我们通常在实际操作中会直接用错误率或者与之对应的准确率来衡量一个模型的好坏,但是更加准确的做法是误差衡量时综合考虑偏差和方差的共同作用。 所谓偏差Bias反映的是模型在样本上的输出与真实值之间的 阅读全文
posted @ 2019-07-15 10:19 NWNU-LHY 阅读(246) 评论(1) 推荐(0) 编辑