摘要: 超参数搜索的策略 在深度学习中,超参数有很多,比如学习率α、使用momentum或Adam优化算法的参数(β1,β2,ε)、层数layers、不同层隐藏 单元数hidden units、学习率衰退、mini=batch的大小等。其中一些超参数比其他参数重要,其优先级可以分为以下几级,如图,红色 框最 阅读全文
posted @ 2018-07-30 16:01 weilongyitian 阅读(1110) 评论(0) 推荐(0) 编辑
摘要: Batch Nornalization Question? 1.是什么? 2.有什么用? 3.怎么用? paper:《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shif 阅读全文
posted @ 2018-07-30 15:47 weilongyitian 阅读(1173) 评论(0) 推荐(0) 编辑
摘要: 1 神经网络 神经网络就是将许多个单一“神经元”联结在一起,这样,一个“神经元”的输出就可以是另一个“神经元”的输入。例如,下图就是一个简单的神经网络: 我们使用圆圈来表示神经网络的输入,标上“”的圆圈被称为偏置节点,也就是截距项。神经网络最左边的一层叫做输入层,最右的一层叫做输出层(本例中,输出层 阅读全文
posted @ 2018-07-27 16:52 weilongyitian 阅读(3822) 评论(0) 推荐(0) 编辑
摘要: 损失函数 Question? 是什么? 有什么用? 怎么用? 1 是什么? 损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是 阅读全文
posted @ 2018-07-27 16:26 weilongyitian 阅读(1824) 评论(0) 推荐(0) 编辑
摘要: Question? 激活函数是什么? 激活函数有什么用? 激活函数怎么用? 激活函数有哪几种?各自特点及其使用场景? 1.激活函数 1.1激活函数是什么? 激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数,那么该网络仅能够表达线性映射,此时即便有再多的隐藏层,其整个网络跟单层神经网络也 阅读全文
posted @ 2018-07-27 15:57 weilongyitian 阅读(53401) 评论(0) 推荐(3) 编辑
摘要: 梯度下降算法是通过沿着目标函数J(θ)参数θ∈R的梯度(一阶导数)相反方向−∇θJ(θ)来不断更新模型参数来到达目标函数的极小值点(收敛),更新步长为η。有三种梯度下降算法框架,它们不同之处在于每次学习(更新模型参数)使用的样本个数,每次更新使用不同的样本会导致每次学习的准确性和学习时间不同。 批量 阅读全文
posted @ 2018-07-27 15:03 weilongyitian 阅读(1594) 评论(0) 推荐(0) 编辑
摘要: Question? Adam 算法是什么,它为优化深度学习模型带来了哪些优势? Adam 算法的原理机制是怎么样的,它与相关的 AdaGrad 和 RMSProp 方法有什么区别。 Adam 算法应该如何调参,它常用的配置参数是怎么样的。 Adam 的实现优化的过程和权重更新规则 Adam 的初始化 阅读全文
posted @ 2018-07-27 14:45 weilongyitian 阅读(13307) 评论(0) 推荐(0) 编辑
摘要: 一:梯度消失 通常神经网络所用的激活函数是sigmoid函数,这个函数有个特点,就是能将负无穷到正无穷的数映射到0和1之间,并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))。因此两个0到1之间的数相乘,得到的结果就会变得很小了。神经网络的反向传播是逐层对函数偏导相乘,因此当神经网络层数 阅读全文
posted @ 2018-07-27 13:32 weilongyitian 阅读(595) 评论(0) 推荐(0) 编辑
摘要: 交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。 1 信息量 假设XX是一个离散型随机变量,其取值集合为χχ,概率分布函数p(x)=Pr(X=x),x∈χp(x)=Pr(X=x),x∈χ,则定义事件X=x0X=x0的信息量为: I(x0)=−log( 阅读全文
posted @ 2018-07-24 16:40 weilongyitian 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。 L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归 阅读全文
posted @ 2018-07-24 15:47 weilongyitian 阅读(396) 评论(0) 推荐(0) 编辑