摘要:
平台:linux(Shell)软件:R,SAS,Spss,weka,IBM IM,Mathout语言:Java,Python,PHP,MapReduce编程,Ruby数据库:SQL,MySQL算法:数据挖掘\机器学习算法备注:(C4.5(分类决策树)、 k-mean... 阅读全文
摘要:
1 基本概念 遗传算法(GA)的概念是由Holland于1973年受生物进化论的启发而首次提出的。它是一种通过模拟生物界自然选择和遗传机制的随机搜索算法。 遗传算法基本思想是模拟自然界优胜劣汰的进化现象,把搜索空间映射为遗传空间,把可能的解编码成一个向量——染色体,向量的每个元素称为基因。 通过... 阅读全文
摘要:
聚类(clustering)就是将数据集划分为由若干相似实例组成的簇(cluster)的过程,使得同一个簇中实例间的相似度最大化,不同簇的实例间的相似度最小化。聚类分析的方法主要有: 1)划分的方法 2)层次的方法 3)基于密度的方法 4)基于网格的方法 5)基于模型的方法 。。。 w... 阅读全文
摘要:
数据预处理是数据挖掘的重要步骤,数据挖掘者的大部分时间和经历都要花在预处理阶段。数据预处理涉及的策略和技术非常广泛,主要包括如下技术:1)聚集 聚集(Aggregation)就是将两个或多个对象合并为单个对象。一般来说,定量数据通常通过求和或求平均值进行聚集,定性数据通常通过汇总进行聚集。聚集可能... 阅读全文
摘要:
1、数据挖掘与机器学习的关系 数据挖掘和机器学习这两项技术的关系非常密切。 机器学习方法构成数据挖掘的核心,绝大多数数据挖掘技术都来自机器学习领域,数据挖掘又向机器学习提出新的要求和任务。2、数据挖掘与机器学习的概念 数据挖掘就是在数据中寻找模式的过程,这个寻找过程必须是自动的或半自动的,并且... 阅读全文
摘要:
1、weka的历史 1992年末,新西兰怀卡托大学计算机科学系Ian Written博士申请基金。 1993年获新西兰政府资助,并于同年开发出接口和基础架构。 1994年发布了第一个weka的内部版本。 1996年,第一个公开版本weka2.1发布。weka的早期版本主要采用C语言编写。 ... 阅读全文