hadoop大数据分析与挖掘实战(读书笔记1)
第一章节是从一个餐厅的角度出发,引出来许许多多的相关概念。
第一个概念就是什么是数据挖掘,这个简单,望文生义就好了。它的名字本身就诠释了它的内涵。
基本任务还是得记一下:
1分类与预测。(有点像量化,股票交易)
2聚类分析()
3关联规则()
4时序模式()
5偏差检测()
关于定义挖掘目标,就是什么菜品推荐,门店开在哪,这些问题。可以不多说。
关于数据取样,没啥好说的。
然后重点在后面,
数据质量分析:有缺失值怎么办?(就是统计一下缺失率什么的,然后删掉或者补值呗)
有异常值怎么办?(识别出来然后删掉呗。怎么识别,用四分位图,异常值小于下四分位-四分位距 或大于上四分位+四分位距)
数据矛盾怎么办?(可能就是数据旧了呗,比如说换了手机号啥的。更新一下就好啦)
就是解决这三个问题。
数据特征分析:分布分析:直方图,分布图,雷达图啥的。
对比分析:折线图呗。还记得文明5里文明得分折线图么?
统计量分析:计算均值,方差,标准差,找中值呗
周期性分析:列出时间表,看看有没有周期性呗。
贡献度分析(帕累托分析):做帕累托图,直方图+折线(各菜品量+贡献线)
相关性分析:散点图,回归线性分析呗
数据预处理:
数据清洗(删除缺失值,或用拉格朗日,牛顿法补缺失值。删除或不处理异常值,分析异常值。)
数据集成(合并数据源,解决数据重复冗余的工作)
数据变换(简单函数变换比如取对数,规划化按比例缩小到[0,1], 连续属性离散化,新属性构造,小波变换)
数据规约(属性规约,就是删属性呗,数值规约,就是减少数据量呗)
挖掘建模与模型评价
挖掘建模就是考虑是哪个问题:
1分类与预测。(有点像量化,股票交易)
2聚类分析()
3关联规则()
4时序模式()
5偏差检测()选取相应的模型。
当然还要用无关的测试集,测试一下来挑战一下模型