数据挖掘方法汇总

数据挖掘的任务是从数据中发现模式。模式按功能分为预测型(Predictive)和描述型(Descriptive),而按实际作用可分为以下6种:

(1)分类模式分类模式把数据集中的数据项映射到某个给定的类上,如决策树方法、统计方法及粗糙集方法等。

(2)回归模式分类模式的预测值是离散的,回归模式的预测值是连续的。

(3)关联模式关联模式(Association Model)用于发现事物间的关联规则,或称相关程度。

(4)时间序列模式时间序列模式根据数据随时间变化的趋势,发现某一时间段内数据的相关处理模型,预测将来可能出现值的分布。

(5)聚类模式聚类模式对事先并不知道分组及怎样分组,而是按某种原则将数据划分组,要求组之间差别尽可能大,组内差别尽可能小。

(6)序列模式序列模式与关联模式相仿,差别在于数据间关联性与时间联系起来。即不仅需知道事件是否发生,而且需确定事件发生的时间。

数据挖掘的方法

(1)统计分析方法统计分析方法是利用统计学、概率论的原理对关系中各属性进行统计分析,从而找出它们之间的关系和规律。

(2)遗传算法遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法。它最早由美国密执安大学的Holland教授提出,具有计算简单、优化效果好的特点,它在处理组合优化问题方面也有一定的优势,可用于聚类分析等。

(3)粗糙集方法粗糙集理论是波兰Pawlak Z教授在 1982年提出的一种智能决策分析工具,它是一种刻划不完整性和不确定性的数学工具,它能有效地分析不精确、不一致、不完整等各种不完备的信息。粗糙集方法被广泛应用干不精确、不确定、不完全的信息的分类和知识获取。

(4)决策树方法决策树方法就是利用训练集生成一个测试函数,根据不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支。这样便生成一棵决策树,然后对决策树进行剪枝处理,最后把决策树转化为规则,决策树方法主要用于分类挖掘。

(5)神经网络方法它模拟人脑神经元结构,以MP模型和Hebb规则为基础,建立了三大类多种神经网络模型。 1. 前馈式网络 它以感知机、反向传播模型、函数网络为代表,可用于预测、模式识别等方面。 2. 反馈式网络它以Hopfield的离散模型和连续模型为代表,分别用于联想和优化计算。 3.自组织网络它以ART模型、Koholon模型为代表,用于聚类。

(6)模糊逻辑模糊数学研究的是“亦此亦彼”的模糊性。模糊数学是继经典数学、统计数学之后,在数学上的又一新的发展。在数据挖掘领域,模糊逻辑可以进行模糊综合判别、模糊聚类分析等。

(7)聚类分析聚类分析是根据事物的特征对其进行聚类或分类,即所谓物以类聚。以期从中发现规律和典型模式。通过聚类以后,数据集就转化为类集,同一类的数据具有相似的变量值,不同类的数据的变量值不具有相似性。这类技术是数据挖掘的最重要技术之一。除传统的基于多元统计分析的聚类方法外,近年来模糊聚类和神经网络聚类方法也有了长足的发展。

(8)最近邻技术通过k个与之最相近的历史记录的组合来辨别新记录。这种技术可用作聚类、偏差分析等数据挖掘任务。

(9)可视化技术这是一类辅助方法。它采用比较直观的图形图表方式将挖掘出来的模式表现出来。数据可视化大大扩展了数据的表达能力从而易于为人们所理解。这在数据挖掘中非常重要,可视化技术正受到日益广泛的重视。

posted @ 2008-09-18 13:12  imba  阅读(1373)  评论(0编辑  收藏  举报