数据挖掘简介

 

 

 数据挖掘定义:

  对数据中潜在的、不明显的数据关系进行分析与建模的算法

  换句话说,是从(大)数据中寻找(隐含的)有用有价值的信息

 

 

 

数据仓库( Data Warehouse,简记DW )

是一种管理技术,旨在通过通畅、合理、全面的信息管理达到有效的决策支持。


1)OLAP(在线分析处理):针对确定的数据关系建立数据模型,包括切片、切块、钻取、旋转等多维数据模型。

2)数据挖掘(DM):针对潜在的、不明显的数据关系建立数据模型辅助决策。

 


结构化决策: 指能建立适当的模型产生决策方案,并能从多个方案中得到问题解的、可程序化的决策。

  用例:在已知成本的条件下,求使利润最大的销售与售价

 

非结构化决策: 指不易用确定的数学模型来描述其决策过程,只能得到一定假设条件下问题近似解的、通过规则推理可转换为程序化的决策.

  用例:确定最优的销售策略

 

信息化发展中的四类主要决策问题
1、规划问题 2、控制问题 3、优化问题 4、评价问题


经典统计局限问题:
大样本,少变量,多输入,单输出,随机性;

现代统计面临问题:
大数据量,少样本,多变量,多输出,混合模糊与随机性;


数据挖掘方法的特点:
1、高维数据特征分析
2、模型自适应变化
3、多输入多输出的非线性关系建立
4、混合随机与模糊不确定性的分类与预测
5、多目标多维数据的优化与控制


因此,数据挖掘是现代统计学科分支,既属于统计学科,也属于计算机科学学科。

 

数据挖掘主要有以下知识点

1.统计分析

      主要包括回归/逻辑回归分析,主成分分析/因子分析  等

    其中主成分/因子分析:对多维变量进行降维,以选择合适建模变量的方法

    回归逻辑/回归分析:基于一组相关数据建立自变量与因变量的确定关系,并以此研究统计意义与随机变量的不确定性关系的方法

    

2.聚类分析

  根据对象的属性以对象的相似性进行度量,把对象归类,使类间相似性尽量少,类内相似性尽量大的一种分类方法

 

3.神经网络

  模仿大脑神经功能和结构而建立的一种信息处理与建模的分类或预测方法

 

4.决策树

  通过原因对结果影响程度的树结构分析,提取原因判别结果的规则方法

 

5.关联分析

  对多个数据项(研究对象)同时或时序出现的规律知识模式进行分析的方法

 

6.遗传算法

  一种基于生物自然选择与遗传机理(优胜劣汰)的寻求满意解的算法

 

posted @ 2017-06-28 19:30  右丶羽  阅读(349)  评论(0编辑  收藏  举报