数据挖掘的方法
数据挖掘是从大量的数据中发现隐含的信息或者知识的过程,属于主动性分析方法,不需要先进行假设,可以发现未知知识。
数据挖掘常用的分析方法包括:分类、聚类、关联分析、数值预测、序列分析、社会网络分析等。
1、分类:
分类(classification)是通过对具有类别的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测对象的类别的一种数据挖掘和机器学习技术。分类属于监督性学习。
2、聚类:
聚类(clustering)是依据物以类聚的原理,将没有类别的对象根据对象的特征自动聚集成不同簇的过程,使得属于同一个簇的对象之间非常相似,属于不同簇的对象之间不相似。聚类属于非监督性学习。
3、关联分析:
关联分析最早用于分析超市中顾客一次购买的物品之间的关联性。
4、数值预测:
数值预测用于预测连续变量的取值。常用的预测方法是回归分析。
5、社会网络分析:
社会网络分析(social network analysis)是对社会网络的结构和属性进行分析,以发现其中的局部或全局特点,发现其中有影响力的个人或组织,发现网络的动态变化规律等。