决策树-ID3

id3:无法直接处理数值型数据，可以通过量化方法将数值型数据处理成标称型数据，但涉及太多特征划分，不建议

决策树：的最大优点在于可以给出数据的内在含义，数据形式非常容易理解；

决策树介绍：决策树分类器是带有种植的流程图，终止块表示分类结果

　　优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不明感，可以处理不相关的数据；可以将此分类器存储于硬盘上，是个持久化的分类器

　　缺点：可能会发生过度匹配问题

　　使用数据类型：数值型和标称型

knn：不便于展现数据的内在含义；每用一次都要学习，不是持久化分类器

概念介绍：

信息增益、熵：

信息的定义：

　　熵的定义：熵是信息增益的期望值之和=获得的最大信息增益，熵是数据的不一致性的表现

　　*（扩展阅读）基尼不纯度：从数据集中随机选取项，度量其被错误分配到其他组的概率

决策树流程

　　1、收集数据：可使用任何方法

　　2、准备数据：构造算法只适用于标称型数据，因此数值型数据需要离散

　　3、分析数据：可以使用任何方法，构造书完成后，我们应该检查图形是否符合预期

··数据集划分：

　　度量数据集的无需程度，度量划分数据集的熵，判断当前数据集划分是否正确，想象成二位的空间散点图，应用直线进行划分

　　　　划分操作：创建新的list对象，将符合要求的数据，抽取出来

··选择最好的数据集：

　　*创建唯一的分类标签列表

　　*计算每种划分方式的信息熵

　　*计算最好的信息增益

··递归决策树：

　　*循环调用划分函数

　　*制定终止点：制定可划分的最大分组数目；自动循环到组数不变状态；如果还出现不停，就采用多数表决的方法确定叶子节点的分类

　　　　类别完全相同；变脸完所有特征时返回次数最多的；得到列表包含所有属性

　　*调用matplob构造图（箭头翻转，数据点数字显示，着色）

　　　　定义文本框和箭头格式

　　　　回执带箭头的注释

　　*构造注解树

　　　　*测试节点的数据类型字典

　　　　*在父子节点间填充文本你信息

　　　　*计算宽和高

　　　　*标记子节点属性值

　　　　*减少y偏移

　　4、测试算法：使用经验数计算准确率

　　　　　测试和存储分类器

　　　　　　　*测试算法：使用决策树执行分类：将标签字符串转换为索引

　　　　　　　*便利地柜整棵树，比较变量中的值与树节点的值，如果达到叶节点，则返回当前分类标签

　　5、使用算法：决策树存储（此步骤可以适用于任何监督学习算法，而是使用决策树可以更好地理解数据的内在含义）

决策树伪代码：

创建分支的伪代码函数creatbranch（）

　　检测数据集中的每个子项是否属于同一分类

　　　　if so return 类标签;

　　　　else

　　　　　　寻找划分数据集的最好特征

　　　　　　划分数据集

　　　　　　创建分支节点

　　　　　　　　for 每个划分的子集

　　　　　　　　　　调用函数creatbranch并增加返回结果到分支节点中

　　　　　　　　return 分支节点

示例：使用决策树预测隐形眼镜类型

　　1、收集数据：提供的文本文件

　　2、准备数据：解析tab键分割的数据行

　　3、分析数据：快速检查数据，确保正确的解析数据内容，使用createplot（）函数回执最终的树形图

　　4 、训练算法：使用createtree函数

　　5、测试算法：编写测试函数验证决策树可以正确的分类给定的数据实例

　　6、使用算法：存储数据结构，以便下次无需重构决策树

posted @ 2015-03-19 01:07 千里之堤始于垒土阅读(340) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

千里之堤始于垒土

决策树-ID3

公告