CRISP-DM
CRISP-DM过程示意图
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data mining and knowledge discovery中 )
CRISP-DM过程描述
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.
1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.
2.data understanding: 数据的理解以及收集,对可用的数据进行评估.
3: data preperation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.
4:modeling: 即应用数据挖掘工具建立模型.
5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.
6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)