机器学习:决策树

随着信息技术的发展,计算机已经渗透到各个领域,随着近几年人工智能的迅猛发展,机器更是在越来越多方面替代甚至超过了人类,语音识别、机器翻译、自动驾驶、智能推荐,更有甚者,AlphaGo在围棋领域已经完全战胜了所有人类,容易想象,未来一定是人工智能的时代。但是一堆硅和金属元器件,为何能够完成这些以前只有依赖人脑才能完成的功能呢,其究竟能完成到什么程度,机器是否将会具有知觉,情感呢?机器学习系列文章将从原理到结论为此展开讨论。

机器学习就是让电脑处理人脑才能完成的一类工作。计算机的特长在于数学计算,速度要强于人的大脑好多倍,但是有些问题是人脑擅长处理的,如模式识别,比如我们看到一个手写数字,很容易就辨认出来,但是同样的工作对电脑却很难。因为电脑只擅长数学计算,我们要把识别一个手写数字的问题转化为计算问题,才能让计算机完成。机器学习就是这个过程。下面简单描述怎样通过计算实现人脑才能完成的分类功能。


以下内容需要初等数学和概率统计基础知识,实在对数学算法不感兴趣的同学可以直接看结语。

汽车两边有两个后视镜,如果我们要把后视镜比作人脑袋上的某个器官,那大部分人都会觉得后视镜比作耳朵很合适。这个类比实际上是一个分类过程:把后视镜分到眼、耳、口、鼻最相近的类下面。后视镜有很多特征,比如“成对出现”,“左右对称”,“位于两侧”。我们拿这些类别做比较,符合“左右对称”的有眼、耳、口、鼻,符合“成对出现”的有眼、耳,符合“位于两侧”的只有耳。所以最终我们觉得后视镜更像耳朵。

仔细考虑上面整个过程,显然“位于两侧”比“成对出现”和“左右对称”在这个分类过程中更加重要,因为用是否“位于两侧”特征一次就能做出正确分类,而用“成对出现”却只能缩小范围,“左右对称”甚至连范围都没有缩小,在分类中丝毫没起作用。

让计算机用决策树算法分类就同上面的过程相似,也要比较哪个特征更加重要,但是计算机只能进行数学计算,特征比较也只能通过比较数字来进行,所以我们就要量化特征的重要程度。有很多方法,我们介绍一种:

还说上面分类的例子,给有“成对出现”、“左右对称”、“位于两侧”三个特征的后视镜分类,类别分别有眼、耳、口、鼻四类。若不用任何特征,随机分类,那分到各个类别下面的概率都是0.25,信息熵为:4×14log214=2(bit)- 4\times\dfrac 14\log_2\dfrac 14=2(bit),如果用“成对出现”来分类(可以看作一个随机变量,只不过是一个值域只有一个值的随机变量),会被随机分到眼、耳(概率分别为0.5、0.5),不会被分到口、鼻(概率分别为0、0),这时计算的信息熵期望(也叫条件熵)为:2×12log212=1(bit)- 2\times\dfrac 12\log_2\dfrac 12=1(bit)

条件熵:在已知第二个随机变量X值的前提下,随机变量Y的信息熵值。计算方法可以理解为计算信息熵的数学期望:X值域的每个值,其概率与此取值下的Y的信息熵的乘积的和。

既然信息熵可以量化一个随机事件的不确定程度,那么我们就可以通过计算信息熵和条件熵的差值来衡量特征的分类效果,也叫信息增益(或相对熵)。特征“成对出现”的信息增益为:21=1(bit)2-1=1(bit);同样算法,“左右对称”和“位于两侧”的信息增益分别为:0(bit)0(bit)2(bit)2(bit),这样特征的信息增益越大,在分类中越重要。

至此为止,决策树构建所需的全部概念已经介绍完了,下面说一下构建过程,为了简单,我们不讲细节:

首先会计算所有特征的信息增益,然后用信息增益最大的特征分支,类似于上面用是否“成对出现”来分支,是分一支,否分一支。对每个分支下的节点判断是否满足结束继续分支的条件,若满足就用此节点下的数量最多的类别作为该节点的类别标记,否则需要继续分支,继续分支的过程就是递归上面的步骤,也就是用剩下的特征计算信息增益,取最大的特征再分支……直到所有分支下的节点都满足分支结束条件,决策树构建完成。


结语:人工智能的很多问题实际上都可以转化为分类问题,如手写数字的识别问题,实际上就是对图片进行分类,分类类别为每一个数字。人脸识别也是分类的过程,将每一张人脸扫描图片分类到每一个人对应的类别下面。这里从原理角度介绍了一种分类算法,用计算机实现这个数学算法就能构建出一颗具有分类功能的决策树,然后就可以完成特定的分类问题,让计算机看起来好像具有了一定智能。但决策树算法跟人类的大脑工作方式还有较大的区别的(或者说只是大脑的冰山一角)。但是未来我会写一篇关于另一个机器学习算法的介绍文,那个算法完全和人类大脑的工作方式一样,就是神经网络模型。AlphaGo就是凭借这种模型在围棋领域战胜了所有人类的。此算法不但可以让计算机能够像人脑那样工作,解决特定领域的问题,甚至能够让计算机实现大脑能够实现的所有功能,包括理性、情感、直觉、想象力和创造力。

posted @ 2018-12-23 00:30  xuejianbest  阅读(151)  评论(0编辑  收藏  举报