数据挖掘方法论及实施步骤
1、业界数据挖掘方法论
2、在工作中,我们进行数据挖掘实施指导方法:
应用建模的八步法:业务理解、指标设计、数据提取、数据探索、算法选择、模型评估、模型发布、模型优化
步骤一:业务理解
常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然会找到一些以前我们不知道的,有用的规律和知识。
过程:业务调研->问题定位->制定目标->业务分析
步骤二:指标设计
基于对业务问题的梳理分析,找到合适的分析方法或者方法论指导模型指标设计,确保指标体系化、全面性。
常见的一些分析方法
步骤三:数据提取
数据提取确保建模数据的完整性、可用性和完整性。
数据提取: 提取建模所需数据
数据清洗: 缺失数据处理 极值数据处理 错误数据处理 冗余数据处理
数据审核: 数据统计错误审核 数据源错误审核 数据统计口径审核
数据集成: 数据挖掘宽表构建
步骤四:数据探索
数据探索主要涉及两项工作:第一,进行数据检测、分析、验证是否符合指标设计初衷和业务涵义;第二,根据建模需要进行部分数据的标准化处理,使不同的指标在相同的量纲上进行数学运算。
步骤五:算法选择
根据建模场景进行算法选择:如:描述类有分类规则、聚类分析,预测类有、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测,评估类有因子分析、主成分分析、数学公式;并结合数据情况(如离散值、连续值,数据量大小)等选择合适的算法。
步骤六:模型评估
步骤七:模型发布
聚焦业务问题提供端到端的专题解决方案;提高数据挖掘应用的效果和价值;是一套端到端、完整的数据挖掘专题解决方案、而非单纯的数据挖掘结果
步骤八:模型优化
模型初期: 模型初步构建进行模型验证
模型上升期: 根据模型验证和业务情况进行模型优化
模型成熟期: 模型准确率达到相应精度、稳定成熟引领业务发展
模型衰退期: 伴随业务的发展模型不再适用新的的业务环境,逐步停下脚步