摘要: Weka的全名是怀卡托智能分析环 境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。 阅读全文
posted @ 2014-01-27 11:42 xx ee 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 分类算法:决策树(C4.5)2013-10-13 20:46:49 YanjunC4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点:用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率。在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过适应(Overfitting),如果不考虑这些结点可能会更好。对非离散数据也能处理。能够对不完整数据进行处理。首先, 阅读全文
posted @ 2014-01-27 11:38 xx ee 阅读(382) 评论(0) 推荐(0) 编辑
摘要: csdn上的 第一篇:从决策树学习谈到贝叶斯分类算法、EM、HMM引言 最近在面试中(点击查看:我的个人简历,求职意向),除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法,而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关聚类 & 分类算法的系列文章以作为自己备试之用,甚至以备将来常常回顾思考。行文杂乱,但侥幸若能对读者起到一点帮助,则幸甚至哉。 本分类 & 聚类算法系列借鉴和参考了两本书,一本是Tom M.Mitchhell所著的机器学习,一本是数据挖掘导论,这两本书皆分别是机器学习 & 数据挖掘领域的 阅读全文
posted @ 2014-01-27 11:37 xx ee 阅读(1349) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/yangliuy/article/details/7322015作者: yangliuy决策树算法是非常常用的分类算法,是逼近离散目标函数的方法,学习得到的函数以决策树的形式表示。其基本思路是不断选取产生信息增益最大的属性来划分样例 集和,构造决策树。信息增益定义为结点与其子结点的信息熵之差。信息熵是香农提出的,用于描述信息不纯度(不稳定性),其计算公式是 Pi为子集合中不同性(而二元分类即正样例和负样例)的样例的比例。这样信息收益可以定义为样本按照某属性划分时造成熵减少的期望,可以区分训练样本中正负样本的能力,其计算公司是我实现该算法针对的样例 阅读全文
posted @ 2014-01-27 11:35 xx ee 阅读(7528) 评论(3) 推荐(0) 编辑