摘要: 1 神经网络 神经网络就是将许多个单一“神经元”联结在一起,这样,一个“神经元”的输出就可以是另一个“神经元”的输入。例如,下图就是一个简单的神经网络: 我们使用圆圈来表示神经网络的输入,标上“”的圆圈被称为偏置节点,也就是截距项。神经网络最左边的一层叫做输入层,最右的一层叫做输出层(本例中,输出层 阅读全文
posted @ 2018-07-27 16:52 weilongyitian 阅读(3822) 评论(0) 推荐(0) 编辑
摘要: 损失函数 Question? 是什么? 有什么用? 怎么用? 1 是什么? 损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是 阅读全文
posted @ 2018-07-27 16:26 weilongyitian 阅读(1824) 评论(0) 推荐(0) 编辑
摘要: Question? 激活函数是什么? 激活函数有什么用? 激活函数怎么用? 激活函数有哪几种?各自特点及其使用场景? 1.激活函数 1.1激活函数是什么? 激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数,那么该网络仅能够表达线性映射,此时即便有再多的隐藏层,其整个网络跟单层神经网络也 阅读全文
posted @ 2018-07-27 15:57 weilongyitian 阅读(53401) 评论(0) 推荐(3) 编辑
摘要: 梯度下降算法是通过沿着目标函数J(θ)参数θ∈R的梯度(一阶导数)相反方向−∇θJ(θ)来不断更新模型参数来到达目标函数的极小值点(收敛),更新步长为η。有三种梯度下降算法框架,它们不同之处在于每次学习(更新模型参数)使用的样本个数,每次更新使用不同的样本会导致每次学习的准确性和学习时间不同。 批量 阅读全文
posted @ 2018-07-27 15:03 weilongyitian 阅读(1594) 评论(0) 推荐(0) 编辑
摘要: Question? Adam 算法是什么,它为优化深度学习模型带来了哪些优势? Adam 算法的原理机制是怎么样的,它与相关的 AdaGrad 和 RMSProp 方法有什么区别。 Adam 算法应该如何调参,它常用的配置参数是怎么样的。 Adam 的实现优化的过程和权重更新规则 Adam 的初始化 阅读全文
posted @ 2018-07-27 14:45 weilongyitian 阅读(13307) 评论(0) 推荐(0) 编辑
摘要: 一:梯度消失 通常神经网络所用的激活函数是sigmoid函数,这个函数有个特点,就是能将负无穷到正无穷的数映射到0和1之间,并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))。因此两个0到1之间的数相乘,得到的结果就会变得很小了。神经网络的反向传播是逐层对函数偏导相乘,因此当神经网络层数 阅读全文
posted @ 2018-07-27 13:32 weilongyitian 阅读(595) 评论(0) 推荐(0) 编辑