链接:http://www.cs.waikato.ac.nz/ml/weka/index.html
一简介:
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
>术语:WEKA所处理的数据集是一个二维的表格,表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。 竖行称作一个属性(Attribute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之 间的一种关系(Relation)。
>数据准备:WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。同时其还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的。此外,WEKA还提供了通过JDBC访问数据库的功能。具体参见:百度百科http://baike.baidu.com/view/1380214.htm
二:Knime开源数据挖掘软件
http://www.oschina.net/question/12_14026可以结合WEKA 使用的
参考书:http://www.cs.waikato.ac.nz/ml/weka/book.html
Data Mining:
Practical Machine Learning Tools and Techniques
相关项目:http://weka.wikispaces.com/Related+Projects
三:weka初级入门教程学习
参见:http://www.ibm.com/developerworks/cn/opensource/os-weka2/index.html