决策树算法

决策树:

判定树是一个类似于流程图的树结构：其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类分布。树的最顶层是根节点。

一个根据天气情况判断是否适宜户外运动的决策树示例：

熵（entropy）概念：

信息和抽象，如何度量？
1948年，香农提出了 ”信息熵(entropy)“的概念。
一条信息的信息量大小和它的不确定性有直接的关系，要搞清楚一件非常非常不确定的事情，或者是我们一无所知的事情，需要了解大量信息==>信息量的度量就等于不确定性的多少。
比特(bit)来衡量信息的多少。

变量的不确定性越大，熵也就越大

决策树归纳算法：

选择属性判断结点。

通过A来作为节点分类获取了多少信息。

具体步骤与示例：

下表是一组信息：（包含age、income、是否student、credit_rating信用评级、Class:buys_computer是否买电脑）

所以信息熵的取值在0~1之间。

类似，Gain(income) = 0.029, Gain(student) = 0.151, Gain(credit_rating)=0.048

其余结点分类类似上述方法。

树剪枝叶（避免过拟合overfitting）：

前置裁剪 在构建决策树的过程时，提前停止。

后置裁剪 决策树构建好后，然后才开始裁剪。

决策树的优点：

直观，便于理解，小规模数据集有效

决策树缺点：

处理连续变量不好

类别较多时，错误增加的比较快

可规模性一般

posted @ 2017-07-26 13:34 dear_diary 阅读(586) 评论(0) 收藏举报

刷新页面返回顶部

dear_diary