摘要: 实现C4.5算法 一、算法描述 统计好样本集S,属性集A,分别求出属性集中每个属性的信息增益率,选中增益率最大的属性P,假设P总有n种情况的取值(连续变量要离散化),那么分别统计好第i种情况时样本集Si和除去P的属性集Pi,生成相对应的子树。主要重点有:信息增益率的计算、事后剪枝使用悲观错误率衡量、树的建造(分治思想)等。   把文件直接拖放到C4.5.exe上。   animals.csv的运行结果 阅读全文
posted @ 2011-05-23 17:26 free_swallow 阅读(2290) 评论(1) 推荐(1) 编辑