摘要: 前言 以下内容是个人学习之后的感悟,转载请注明出处~ Mini-batch梯度下降法 见另一篇文章:梯度下降法。 指数加权平均 其原理如下图所示,以每天的温度为例,每天的温度加权平均值等于β乘以前一天的温度加权平均值,再加上(1-β)乘以 当天温度的和。β值得选取对温度加权平均值的影响非常明显,图中 阅读全文
posted @ 2017-09-14 21:01 steed灬 阅读(1576) 评论(0) 推荐(0) 编辑
摘要: 前言 以下内容是个人学习之后的感悟,转载请注明出处~ softmax回归 首先,我们看一下sigmod激活函数,如下图,它经常用于逻辑回归,将一个real value映射到(0,1)的区间(当然也可以是 (-1,1)),这样可以用来做二分类。 接下来,我们再看一下softmax函数,其函数类型如下: 阅读全文
posted @ 2017-09-14 19:34 steed灬 阅读(4790) 评论(0) 推荐(0) 编辑
摘要: 前言 以下内容是个人学习之后的感悟,转载请注明出处~ Batch归一化 在神经网络中,我们常常会遇到梯度消失的情况,比如下图中的sigmod激活函数,当离零点很远时,梯度基本为0。为了 解决这个问题,我们可以采用Batch归一化。 通过BN法,我们将每层的激活值都进行归一化,将它们拉到均值为0、方差 阅读全文
posted @ 2017-09-14 18:45 steed灬 阅读(582) 评论(0) 推荐(0) 编辑
摘要: 前言 以下内容是个人学习之后的感悟,转载请注明出处~ 超参数调试 在深度学习中,超参数有很多,比如学习率α、使用momentum或Adam优化算法的参数(β1,β2,ε)、层数layers、不同层隐藏 单元数hidden units、学习率衰退、mini=batch的大小等。其中一些超参数比其他参数 阅读全文
posted @ 2017-09-14 16:54 steed灬 阅读(7127) 评论(0) 推荐(0) 编辑