摘要: 一,C4.5算法是基于ID3算法的改进(优点) 对连续的数据也能处理 可以在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过拟合(Overfitting),如果不考虑这些结点可能会更好 能够对不完整数据进行处理。 用信息增益率来进行属性选择的度量 二,算法流程 三,属性选择度量(和ID3对比) 属性选择度量又称分裂规则,因为它们决定给定节点上的元组如何分裂。属... 阅读全文
posted @ 2015-11-19 17:02 奋斗的珞珞 阅读(3389) 评论(0) 推荐(0) 编辑
摘要: 一,公开数据集 UCI数据集是一个常用的标准测试数据集,下载地址UCI数据集 在看别人的论文时,一般会给出使用的数据集的出处或下载地址(除非是很机密的数据,例如与国家安全有关)。如果你看的论文没有给出数据集的出处,建议停止看这篇论文,并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些论文的质量一定不怎么好。 二,源代码 网上有很多公开源码的算法包,例如最为著名的Weka,MLC+... 阅读全文
posted @ 2015-11-19 15:45 奋斗的珞珞 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 一,预备知识: 信息量: 单个类别的信息熵: 条件信息量: 单个类别的条件熵: 信息增益: 信息熵: 条件熵:(表示分类的类,表示属性V的取值,m为属性V的取值个数,n为分类的个数) 二.算法流程: 实质:递归的先根建树,结束条件(当前子集类别一致),建树量化方法(信息增益) 三.示例代码: package com.mechinelearn.id3; import java.io.Buff... 阅读全文
posted @ 2015-11-19 12:49 奋斗的珞珞 阅读(695) 评论(0) 推荐(0) 编辑
摘要: 一.步骤: 创建数据集(准备数据) 根据数据集生成JFreeChart对象,并对其做相应的设置(标题,图例,x轴,Y轴,对象渲染等) 将JFreeChart对象输出到文件或者Servlet输出流等 二.具体举例 饼状图 示例代码: package com.lky.experiment; import java.awt.Color; import java.awt.Dimen... 阅读全文
posted @ 2015-11-19 09:18 奋斗的珞珞 阅读(1767) 评论(0) 推荐(0) 编辑