weilongyitian

2018年7月30日

摘要：超参数搜索的策略在深度学习中，超参数有很多，比如学习率α、使用momentum或Adam优化算法的参数（β1，β2，ε）、层数layers、不同层隐藏单元数hidden units、学习率衰退、mini=batch的大小等。其中一些超参数比其他参数重要，其优先级可以分为以下几级，如图，红色框最阅读全文

posted @ 2018-07-30 16:01 weilongyitian 阅读(1110) 评论(0) 推荐(0) 编辑

BN(Batch Normalization)

摘要： Batch Nornalization Question? 1.是什么？ 2.有什么用？ 3.怎么用？ paper：《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shif 阅读全文

posted @ 2018-07-30 15:47 weilongyitian 阅读(1173) 评论(0) 推荐(0) 编辑

2018年7月27日

神经网络，前向传播FP和反向传播BP

摘要：１　神经网络神经网络就是将许多个单一“神经元”联结在一起，这样，一个“神经元”的输出就可以是另一个“神经元”的输入。例如，下图就是一个简单的神经网络：我们使用圆圈来表示神经网络的输入，标上“”的圆圈被称为偏置节点，也就是截距项。神经网络最左边的一层叫做输入层，最右的一层叫做输出层（本例中，输出层阅读全文

posted @ 2018-07-27 16:52 weilongyitian 阅读(3822) 评论(0) 推荐(0) 编辑

损失函数（交叉熵均方误差）

摘要：损失函数 Question？是什么？有什么用？怎么用？ 1 是什么？损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是阅读全文

posted @ 2018-07-27 16:26 weilongyitian 阅读(1824) 评论(0) 推荐(0) 编辑

激活函数--（Sigmoid，tanh，Relu，maxout）

摘要： Question？激活函数是什么？激活函数有什么用？激活函数怎么用？激活函数有哪几种？各自特点及其使用场景？ 1.激活函数 1.1激活函数是什么？激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也阅读全文

posted @ 2018-07-27 15:57 weilongyitian 阅读(53401) 评论(0) 推荐(3) 编辑

随机梯度下降优化算法-----批量梯度下降，随机梯度下降，小批量梯度下降

摘要：梯度下降算法是通过沿着目标函数J(θ)参数θ∈R的梯度（一阶导数）相反方向−∇θJ(θ)来不断更新模型参数来到达目标函数的极小值点（收敛），更新步长为η。有三种梯度下降算法框架，它们不同之处在于每次学习（更新模型参数）使用的样本个数，每次更新使用不同的样本会导致每次学习的准确性和学习时间不同。批量阅读全文

posted @ 2018-07-27 15:03 weilongyitian 阅读(1594) 评论(0) 推荐(0) 编辑

Adam优化算法

摘要： Question？ Adam 算法是什么，它为优化深度学习模型带来了哪些优势？ Adam 算法的原理机制是怎么样的，它与相关的 AdaGrad 和 RMSProp 方法有什么区别。 Adam 算法应该如何调参，它常用的配置参数是怎么样的。 Adam 的实现优化的过程和权重更新规则 Adam 的初始化阅读全文

posted @ 2018-07-27 14:45 weilongyitian 阅读(13307) 评论(0) 推荐(0) 编辑

梯度消失梯度爆炸

摘要：一：梯度消失通常神经网络所用的激活函数是sigmoid函数，这个函数有个特点，就是能将负无穷到正无穷的数映射到0和1之间，并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))。因此两个0到1之间的数相乘，得到的结果就会变得很小了。神经网络的反向传播是逐层对函数偏导相乘，因此当神经网络层数阅读全文

posted @ 2018-07-27 13:32 weilongyitian 阅读(595) 评论(0) 推荐(0) 编辑

2018年7月24日

交叉熵相对熵

摘要：交叉熵（cross entropy）是深度学习中常用的一个概念，一般用来求目标与预测值之间的差距。 1 信息量假设XX是一个离散型随机变量，其取值集合为χχ,概率分布函数p(x)=Pr(X=x),x∈χp(x)=Pr(X=x),x∈χ,则定义事件X=x0X=x0的信息量为： I(x0)=−log( 阅读全文

posted @ 2018-07-24 16:40 weilongyitian 阅读(421) 评论(0) 推荐(0) 编辑

正则化 L1 L2

摘要：机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。 L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归阅读全文

posted @ 2018-07-24 15:47 weilongyitian 阅读(396) 评论(0) 推荐(0) 编辑

公告