随笔分类 - 数据挖掘和weka使用
摘要:RIpple-DOwn Rule算法简介RIpple-DOwn Rule算法(链波下降规则)是一种专家系统方法论,它是澳大利亚新南威尔士大学的Compton教授于1989年提出。它是一种用于知识表示和获取的方法。从某种意义上看RDR算法是CBR方法的一种扩展或者变形,RDR将规则引入CBR中,用规则来索引案例,以错误驱动机制来获取知识。RIpple-DOwn Rule算法是比较简单,有时候得出的结果不能让人满意,但是它是我最喜欢的一种算法,它通过否定规则来表示结果,非常适合人类理解。RIpple-DOwn Rule算法流程RIpple-DOwn Rule算法使用了二元决策树,区别于标准决策树,
阅读全文
摘要:OneR算法简介OneR又称1-R,是1993出现的一种极为简单的分类算法模型,它可以产生一个单层的决策树。OneR算法是一个简单、廉价的方法,但是常常能够获得一个非常好的结果,用于描述数据中的结构。OneR算法的使用非常广泛,可以简单的得到一个对数据的概括性了解,有时候甚至可以直接获得结果。OneR算法实现OneR的思路很简单,建立一个只针对于单个属性进行测试的规则,并进行不同的分支。每个分支对应的不同属性值。分支的类就是原始数据(训练数据)在这个分支上出现最多的类。每一个属性都会产生一个不同的规则集,每条规则对应这个属性的每个值。对每个属性值的规则集的误差率进行评估,选择效果最好的一个即可
阅读全文
摘要:上一篇介绍了arff格式,这是weka专有格式,一般情况需要我们从其他数据源抽取或者获得。weka支持从cvs转化,也可以从数据库中抽取,界面如下图weka安装目录有一个data目录,里面有一些测试数据,可以用于测试和学习。导入了数据仅仅是一个开始,我们还需要对数据进行预处理。数据预处理(data preprocessing)数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据
阅读全文
摘要:我个人认为直接讨论数据挖掘算法和weka的使用过于心急。我一开始就直接学习的数据挖掘方法,有些方法艰涩枯燥,我常常在思考的不是方法本身,而是“这是干什么的?”。在使用了weka后有些东西渐渐清晰,因为输入和输出给了人很直观的感觉,再结合技术本身学习效率很高。输入主要有三类:概念、实例和属性。概念概念简单而言就是需要被处理的东西。它可以是分类学习中那个已经分类完成的样本集。你需要处理的东西可能差别很大,但你可以统称它们为概念,而输出就是对其的描述,即概念描述。实例实例这个词你可能觉得陌生,但是你可以大致认为其为样本。我们通常的输入是一个实例集,其中的每一个实例都是单一、独立的概念样本。当然最常见
阅读全文
摘要:写在开篇weka用了一些时日了,觉得真心不错。功能很完善,而且是开源的。最重要的扩展方便,非常适合搞研究和做全国大学生数学建模之类的比赛。我学习weka主要是看的一本数据挖掘和weka使用的书,是英文的。国内有中文版…但是不想吐就不要看译本吧,不知道是翻译的人是怎么想的.我写博文的顺序和参考书顺序是一样的,一方面是我觉得原书的学习顺序很合理,另外一个方面是因为我也确确实实是按照这个顺序学的。文章的内容一部分是我大致翻译的原书内容,一部分是我的实际经验。weka的中文资料还是有一些的,但是我没有找到一个较为系统,所以准备自己写一个系列出来。因为数据挖掘涉及一些比较专业的知识,我虽然是学数学的,但
阅读全文