零基础入门深度学习(2) - 线性单元和梯度下降

往期回顾

在上一篇文章中，我们已经学会了编写一个简单的感知器，并用它来实现一个线性分类器。你应该还记得用来训练感知器的『感知器规则』。然而，我们并没有关心这个规则是怎么得到的。本文通过介绍另外一种『感知器』，也就是『线性单元』，来说明关于机器学习一些基本的概念，比如模型、目标函数、优化算法等等。这些概念对于所有的机器学习算法来说都是通用的，掌握了这些概念，就掌握了机器学习的基本套路。

线性单元是啥

感知器有一个问题，当面对的数据集不是线性可分的时候，『感知器规则』可能无法收敛，这意味着我们永远也无法完成一个感知器的训练。为了解决这个问题，我们使用一个可导的线性函数来替代感知器的阶跃函数，这种感知器就叫做线性单元。线性单元在面对线性不可分的数据集时，会收敛到一个最佳的近似上。

为了简单起见，我们可以设置线性单元的激活函数

这样的线性单元如下图所示

对比此前我们讲过的感知器

这样替换了激活函数

线性单元的模型

当我们说模型时，我们实际上在谈论根据输入

函数

元

你也许会说，这个模型太不靠谱了。是这样的，因为我们考虑的因素太少了，仅仅包含了工作年限。如果考虑更多的因素，比如所处的行业、公司、职级等等，可能预测就会靠谱的多。我们把工作年限、行业、公司、职级这些信息，称之为特征。对于一个工作了5年，在IT行业，百度工作，职级T6这样的人，我们可以用这样的一个特征向量来表示他

既然输入

其中，

为了书写和计算方便，我们可以令

其中

这样上面的式子就可以写成

我们还可以把上式写成向量的形式

式

长成这种样子模型就叫做线性模型，因为输出

监督学习和无监督学习

接下来，我们需要关心的是这个模型如何训练，也就是参数

机器学习有一类学习方法叫做监督学习，它是说为了训练一个模型，我们要提供这样一堆训练样本：每个训练样本既包括输入特征

另外一类学习方法叫做无监督学习，这种方法的训练样本中只有

很多时候，既有

线性单元的目标函数

现在，让我们只考虑监督学习。

在监督学习下，对于一个样本，我们知道它的特征

数学上有很多方法来表示的

我们把

训练数据中会有很多样本，比如

上式的

我们还可以把上面的式子写成和式的形式。使用和式，不光书写起来简单，逼格也跟着暴涨，一举两得。所以一定要写成下面这样

式

其中

(式2)中，

我们当然希望对于一个训练数据集来说，误差最小越好，也就是(式2)的值越小越好。对于特定的训练数据集来说，

由此可见，模型的训练，实际上就是求取到合适的

梯度下降优化算法

大学时我们学过怎样求函数的极值。函数

不过对于计算机来说，它可不会解方程。但是它可以凭借强大的计算能力，一步一步的去把函数的极值点『试』出来。如下图所示：

首先，我们随便选择一个点开始，比如上图的

你可能要问了，为啥每次修改

按照上面的讨论，我们就可以写出梯度下降算法的公式

其中，

对于上一节列出的目标函数(式2)

梯度下降算法可以写成

聪明的你应该能想到，如果要求目标函数的最大值，那么我们就应该用梯度上升算法，它的参数修改规则是

下面，请先做几次深呼吸，让你的大脑补充足够的新鲜的氧气，我们要来求取

关于

因此，线性单元的参数修改规则最后是这个样子

式

有了上面这个式子，我们就可以根据它来写出训练线性单元的代码了。

需要说明的是，如果每个样本有M个特征，则上式中的

为了让您看明白说的是啥，我吐血写下下面这个解释(写这种公式可累可累了)。因为

如果您还是没看明白，建议您也吐血再看一下大学时学过的《线性代数》吧。

这一节你尽可以跳过它，并不太会影响到全文的理解。当然如果你非要弄明白每个细节，那恭喜你骚年，机器学习的未来一定是属于你的。

首先，我们先做一个简单的前戏。我们知道函数的梯度的定义就是它相对于各个变量的偏导数，所以我们写下下面的式子

可接下来怎么办呢？我们知道和的导数等于导数的和，所以我们可以先把求和符号

现在我们可以不管高大上的

我们知道，

我们分别计算上式等号右边的两个偏导数

代入，我们求得

最后代入

至此，大功告成。

随机梯度下降算法(Stochastic Gradient Descent, SGD)

如果我们根据(式3)来训练模型，那么我们每次更新

如上图，椭圆表示的是函数值的等高线，椭圆中心是函数的最小值点。红色是BGD的逼近曲线，而紫色是SGD的逼近曲线。我们可以看到BGD是一直向着最低点前进的，而SGD明显躁动了许多，但总体上仍然是向最低点逼近的。

最后需要说明的是，SGD不仅仅效率高，而且随机性有时候反而是好事。今天的目标函数是一个『凸函数』，沿着梯度反方向就能找到全局唯一的最小值。然而对于非凸函数来说，存在许多局部最小值。随机性有助于我们逃离某些很糟糕的局部最小值，从而获得一个更好的模型。

实现线性单元

完整代码请参考GitHub: https://github.com/hanbt/learn_dl/blob/master/linear_unit.py (python2.7)

接下来，让我们撸一把代码。

因为我们已经写了感知器的代码，因此我们先比较一下感知器模型和线性单元模型，看看哪些代码能够复用。

算法	感知器	线性单元
模型
训练规则

比较的结果令人震惊，原来除了激活函数

from perceptron import Perceptron
#定义激活函数f
f = lambda x: x
class LinearUnit(Perceptron):
def __init__(self, input_num):
'''初始化线性单元，设置输入参数的个数'''
Perceptron.__init__(self, input_num, f)

通过继承Perceptron，我们仅用几行代码就实现了线性单元。这再次证明了面向对象编程范式的强大。

接下来，我们用简单的数据进行一下测试。

def get_training_dataset():
'''
捏造5个人的收入数据
'''
# 构建训练数据
# 输入向量列表，每一项是工作年限
input_vecs = [[5], [3], [8], [1.4], [10.1]]
# 期望的输出列表，月薪，注意要与输入一一对应
labels = [5500, 2300, 7600, 1800, 11400]
return input_vecs, labels
def train_linear_unit():
'''
使用数据训练线性单元
'''
# 创建感知器，输入参数的特征数为1（工作年限）
lu = LinearUnit(1)
# 训练，迭代10轮, 学习速率为0.01
input_vecs, labels = get_training_dataset()
lu.train(input_vecs, labels, 10, 0.01)
#返回训练好的线性单元
return lu
if __name__ == '__main__':
'''训练线性单元'''
linear_unit = train_linear_unit()
# 打印训练获得的权重
print linear_unit
# 测试
print 'Work 3.4 years, monthly salary = %.2f' % linear_unit.predict([3.4])
print 'Work 15 years, monthly salary = %.2f' % linear_unit.predict([15])
print 'Work 1.5 years, monthly salary = %.2f' % linear_unit.predict([1.5])
print 'Work 6.3 years, monthly salary = %.2f' % linear_unit.predict([6.3])

程序运行结果如下图

拟合的直线如下图

小结

事实上，一个机器学习算法其实只有两部分

模型从输入特征
目标函数 目标函数取最小(最大)值时所对应的参数值，就是模型的参数的最优值。很多时候我们只能获得目标函数的局部最小(最大)值，因此也只能得到模型参数的局部最优值。

因此，如果你想最简洁的介绍一个算法，列出这两个函数就行了。

接下来，你会用优化算法去求取目标函数的最小(最大)值。[随机]梯度{下降|上升}算法就是一个优化算法。针对同一个目标函数，不同的优化算法会推导出不同的训练规则。我们后面还会讲其它的优化算法。

其实在机器学习中，算法往往并不是关键，真正的关键之处在于选取特征。选取特征需要我们人类对问题的深刻理解，经验、以及思考。而神经网络算法的一个优势，就在于它能够自动学习到应该提取什么特征，从而使算法不再那么依赖人类，而这也是神经网络之所以吸引人的一个方面。

现在，经过漫长的烧脑，你已经具备了学习神经网络的必备知识。下一篇文章，我们将介绍本系列文章的主角：神经网络，以及用来训练神经网络的大名鼎鼎的算法：反向传播算法。至于现在，我们应该暂时忘记一切，尽情奖励自己一下吧。

本想放个日料的，怕被说成不爱国，换成毛爷爷家的红烧肉吧:P

参考资料

Tom M. Mitchell, "机器学习", 曾华军等译, 机械工业出版社
转载自https://www.zybuluo.com/hanbingtao/note/448086

posted @ 2018-08-17 11:09 兔六哥阅读(730) 评论(1) 收藏举报

刷新页面返回顶部

兔六哥