数据挖掘学习

数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。

知识发现KD
输出的是规则
数据挖掘DM
输出的是模型

共同点
两种方法输入的都是学习集(learning sets)
目的都是尽可能多的自动化数据挖掘过程
只能半自动化,不能完全自动化

社会信息化后,社会的运转是软件的运转,社会的历史是数据的历史

技术分类
预言:用历史预测未来
描述:了解数据中潜在的规律

数据挖掘技术
关联分析
序列模式
分类(预言)
聚集
异常检测

异常检测是数据挖掘中一个重要方面,用来发现‘小的模式’(相对于聚类),即数据集中间显著不同于其他数据的对象。

知识发现系统
前处理过程,抽取、清洗、选择、转换
知识发现系统是一个自动/半自动过程,需要有很好的性能
能够发现的知识,计算学习理论COLT(Computational Learning Theory)
以FOL为基础的以发现关系为目的的归纳逻辑程序设计

构成数据挖掘算法的三要素
模式记述语言:反映了算法可以发现什么样的知识
模式评价:反映了什么样的模式可以称为知识
模式探索:包括针对某一特定模式对参数空间的探索和模式空间的探索

数据挖掘的主要方法
分类、聚类、相关规则、回归、其他

目前的数据挖掘系统支持数据库和数据仓库,和他们具有高性能的接口,具有高的可扩展性。可挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(data mining schema)和数据查询语言(DMQL)增加系统得了灵活性。

数据清理通过填写空缺值,平滑噪音数据,识别删除孤立点,并解决不一致来清理数据。

数据清理处理内容
格式标准化
异常数据清除
错误纠正
重复数据的清除


数据规约
数据集的压缩表示,但是能和原始数据集达到相同或基本相同的分析结果

主要策略
数据聚集
维规约
数据压缩
数值规约


数据清理

空缺值
忽略元组
人工填写
使用固定值
使用属性平均值
使用最可能值

噪声数据
如何平滑数据,去掉噪声
数据平滑技术
分箱
聚类
计算机和人工检查相结合
回归

分箱
箱的深度:表示不同的箱里有相同个数的数据。
箱的宽度:每个箱值的取值区间是个常数
平滑方法:
按箱平均值平滑
按箱中值平滑
按箱边界值平滑

聚类
每个簇中的数据用其中心值代替
忽略孤立点
先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息
人工再审查这些孤立点

回归
通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。
线性回归
多线性回归

数据集成
将多个数据源中的数据结合起来存放在一个一直得数据存贮中。
实体识别,实体和模式的匹配
冗余:某个属性可以由别的属性推出
相关分析
相关性rA,B
rA,B>0,正相关。A随B的值得增大而增大
rA,B>0,正相关。AB无关
rA,B>0,正相关。A随B的值得增大而减少
重复 统一数据存储多次
数据值冲突的检测和处理

数据变换
平滑
聚集
数据概化
规范化
属性构造(特征构造)

规范化
最小最大规范化
小数定标规范化
属性构造
由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解。

数据立方体聚集
寻找感兴趣的维度进行再聚集

 

数据来源
第一类数据,内部数据

第二类数据,行业数据--公开数据

第三类数据,抽样调查--问卷调查、电话调查

posted @ 2013-09-05 15:30  传说中那只猫  阅读(351)  评论(0编辑  收藏  举报