摘要: ##从智库百科摘取 优点: 1、可以生成可以理解的规则 2、计算量相对不是很大 3、可以处理连续和种类字段 4、可以清晰的显示哪些字段比较重要(这一特性可以用于特征选择) 缺点: 1、对连续型字段比较难预测 2、对于有时间顺序数据,需要许多预处理工作(为什么?) 3、当类别较多时,错误可能增加的比较 阅读全文
posted @ 2017-08-31 20:25 寻找最好的自己 阅读(11880) 评论(0) 推荐(1) 编辑
摘要: 决策树的学习分三步:特征选择、决策树生成和决策树剪枝 一、特征选择 特征选择可以用的指标有:信息增益、信息增益率和基尼指数 首先要了解什么是信息熵。设样本为D,共有n个类,样本中第k类样本占的比例为pk(k = 1,2,.....,n),那么D的信息熵为 H(D) = - Σnk=1 pk log2 阅读全文
posted @ 2017-08-31 15:50 寻找最好的自己 阅读(256) 评论(0) 推荐(1) 编辑