统计学习方法五:决策树
结合之前的部落格:http://www.cnblogs.com/naonaoling/p/4173631.html
一、什么是决策树?
决策树是一种基本的分类和回归算法。
决策树模型呈树形结构,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
决策树模型由结点和有向边组成,结点分为内部结点和叶结点,内部结点表示特征,叶结点表示类,有向边表示某一特征的取值。
学习阶段:利用训练数据集,根据损失函数最小化的原则建立决策树模型
预测阶段:对新的数据,利用决策树模型进行分类
本部落格只针对分类问题进行描述
特性:
(1)多分类或回归
(2)判别模型
(3)学习步骤:特征选择—决策树生成—决策树剪枝
二、决策树模型与学习
1、模型:
分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。
结点:有内部结点和叶结点两种类型。内部结点表示一个特征或属性,叶结点表示一个类
2、决策树学习
学习模型:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确分类。该模型不仅对训练数据有很好的拟合,而且对未知数据有很好的越策
学习策略:通常选择正则化的极大似然函数作为损失函数,损失函数最小化
学习算法:采用启发式算法,近似求解上述最优化问题。
递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类。
过拟合:以上方法生成的决策树可能对训练数据有很好的分类能力,但对未知的数据却未必,即可能发生过拟合。
剪枝:对生成的树自下而上进行剪枝,将树变得更简单,从而使它具有更好的泛化能力。
特征选择:如果特征数量很多,也可以在学习开始的时候,对特征进行选择。
三、特征选择
参加之前的部落格 http://www.cnblogs.com/naonaoling/p/4173631.html
选取对训练数据具有分类能力的特征,用该特征来划分特征空间。
如果一个特征具有更好的分类能力,或者说,按照这一特征将训练数据集分割成子集,使得各个子集在当前条件下有最好的分类,那么就更应该选择这个特征
特征选择的准则:信息增益或信息增益比。
四、决策树的生成算法
参加之前的部落格 http://www.cnblogs.com/naonaoling/p/4173631.html
1、ID3
在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树
ID3相当于用极大似然法进行概率模型的选择
2、C4.5
特性选择标准:信息增益比(与ID3的本质区别)
五、剪枝
为了避免过拟合现象,从已生成的树上裁掉一些子树或叶结点,并将其根结点或父结点作为新的叶结点,从而简化分类树模型。
决策树生成:考虑更好的拟合训练集数据 —— 学习局部的模型
剪枝:通过优化损失函数还考虑了减小模型复杂度 —— 学习整体的模型
怎么剪? —— 降低不确定性 —— 结构风险最小化
六、CART算法
classificaion and regression tree ,分类与回归树
即可用于分类也可用于回归
特性:
(1)决策树是二叉树,内部结点取值“是”和“否”,分别为左结点和右结点
(2)给定输入随机变量X条件下输出随机变量Y的条件概率分布(之前的算法,既可以是一种if then规则,也可以是条件概率分布)
(3)步骤:决策树生成+决策树剪枝
1、CART生成
递归地构建二叉决策树的过程
1)回归树生成
平方误差最小化
2)分类树生成
基尼指数最小化