决策树 Decision Tree

2017-12-15 19:43:07

决策树算法是每次按一个特征进行分类直到分完。

每次选择分类的特征很重要，我们希望的情况是，前几次分类就能将总体分得七七八八，最后再进行一些细枝末节的分类。

首先先举个例子来直观的了解一下决策树算法。

小王是一家著名高尔夫俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些天好像所有人都来玩高尔夫，以至于所有员工都忙的团团转还是应付不过来，而有些天不知道什么原因却一个人也不来，俱乐部为雇员数量浪费了不少资金。

小王的目的是通过下周天气预报寻找什么时候人们会打高尔夫，以适时调整雇员数量。因此首先他必须了解人们决定是否打球的原因。

在2周时间内我们得到以下记录：

天气状况有晴，云和雨；气温用华氏温度表示；相对湿度用百分比；还有有无风。当然还有顾客是不是在这些日子光顾俱乐部。最终他得到了14行5列的数据表格。

决策树模型就被建起来用于解决问题。

决策树是一个有向无环图。根结点代表所有数据。分类树算法可以通过变量outlook，找出最好地解释非独立变量play（打高尔夫的人）的方法。变量outlook的范畴被划分为以下三个组：

晴天，多云天和雨天。

我们得出第一个结论：如果天气是多云，人们总是选择玩高尔夫，而只有少数很着迷的甚至在雨天也会玩。

接下来我们把晴天组的分为两部分，我们发现顾客不喜欢湿度高于70%的天气。最终我们还发现，如果雨天还有风的话，就不会有人打了。

这就通过分类树给出了一个解决方案。小王（老板）在晴天，潮湿的天气或者刮风的雨天解雇了大部分员工，因为这种天气不会有人打高尔夫。而其他的天气会有很多人打高尔夫，因此可以雇用一些临时员工来工作。

具体该如何选择特征来进行分类呢，以下给出了两种主流的算法。

一、ID3算法

ID3算法是一种启发式的贪心算法，他的选择策略是每次计算所有备选的特征的信息增益，最后从中挑选出信息增益最大的那个特征最为这次的分类的特征。

二、C4.5算法

在ID3算法中我们每次找的是信息增益最大的特征，但是这里会有一个问题，就是如果将数据集分得太碎，那也失去了意义。比如第一次就使用身份证来作为区分特征，那么就会分得非常琐碎，这种情况下非常容易产生overfitting的问题。

为了解决这个问题，于是提出了C4.5算法，引入了惩罚量SplitInformation，优化了选择特征的标准。

具体来说，选择特征的标准从选择最大信息增益变成了选择最大信息比率。

posted @ 2017-12-15 20:04 hyserendipity 阅读(518) 评论(0) 编辑收藏举报

刷新页面返回顶部

hyserendipity