hadoop大数据分析与挖掘实战(读书笔记1)

第一章节是从一个餐厅的角度出发,引出来许许多多的相关概念。

第一个概念就是什么是数据挖掘,这个简单,望文生义就好了。它的名字本身就诠释了它的内涵。

基本任务还是得记一下:

1分类与预测。(有点像量化,股票交易)

2聚类分析()

3关联规则()

4时序模式()

5偏差检测()

关于定义挖掘目标,就是什么菜品推荐,门店开在哪,这些问题。可以不多说。

关于数据取样,没啥好说的。

 

然后重点在后面,

数据质量分析:有缺失值怎么办?(就是统计一下缺失率什么的,然后删掉或者补值呗)

有异常值怎么办?(识别出来然后删掉呗。怎么识别,用四分位图,异常值小于下四分位-四分位距 或大于上四分位+四分位距)  

数据矛盾怎么办?(可能就是数据旧了呗,比如说换了手机号啥的。更新一下就好啦)

就是解决这三个问题。

 

数据特征分析:分布分析:直方图,分布图,雷达图啥的。

对比分析:折线图呗。还记得文明5里文明得分折线图么?

统计量分析:计算均值,方差,标准差,找中值呗

周期性分析:列出时间表,看看有没有周期性呗。

贡献度分析(帕累托分析):做帕累托图,直方图+折线(各菜品量+贡献线)

相关性分析:散点图,回归线性分析呗

 

数据预处理:

数据清洗(删除缺失值,或用拉格朗日,牛顿法补缺失值。删除或不处理异常值,分析异常值。)

数据集成(合并数据源,解决数据重复冗余的工作)

数据变换(简单函数变换比如取对数,规划化按比例缩小到[0,1], 连续属性离散化,新属性构造,小波变换)

数据规约(属性规约,就是删属性呗,数值规约,就是减少数据量呗)

 

挖掘建模与模型评价

挖掘建模就是考虑是哪个问题:

1分类与预测。(有点像量化,股票交易)

2聚类分析()

3关联规则()

4时序模式()

5偏差检测()选取相应的模型。

当然还要用无关的测试集,测试一下来挑战一下模型

 

posted @ 2017-08-07 11:34  天才麻将少年  阅读(519)  评论(0编辑  收藏  举报