HCIE数据挖掘笔记—004数据挖掘(入门)
数据挖掘流程:
1、SPSS的CRISP-DM模型:
商业理解 数据理解 数据准备 建立模型 模型评估 模型实施
商业理解:(不要把自己写的太死)
确定业务目标(评估指标:准确率等)
项目可行性分析(已有资源、条件;目前风险等)
确定挖掘目标(与上一条绑定)
提出项目计划(计划、工具都要包含在内)
例子:电信流失用户挽留
业务目标:增存并重、挽留用户
可行性报告分析:查询率等
挖掘目标:
项目计划:
数据准备:(包含于数据预处理)
数据选择:
数据清洗:
数据创建:
数据合并:
数据格式化:
建立模型:
选择建模技术:选择算法与参数
测试方案设计:
模型训练:
模型测试评估:根据指标进行判断,需达到指标
模型评估:(分类算法:混淆矩阵、AUC、ROC曲线、查询率、查准率;回归算法:协方差、方差、轮廓系数等;聚类算法:相似度、相异度)
结果评估
过程回顾
准备下一步工作(好);商业理解(不好)
模型实施:
实施计划:
监控和维护计划:
作出最终报告:
项目回顾:
更新迭代:
在关联模型中,lab可能会考Apriori算法
2、SAS的SEMMA数据挖掘流程: