《SAS编程与数据挖掘商业案例》学习笔记之十八
接着曾经的《SAS编程与数据挖掘商业案例》,之前全是sas的基础知识,如今開始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明。
一:数据挖掘综述
衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标。有非常多种方法。仅仅有高效解决商业目标的方法才是最牛的方法。即使是看似简单的方法,仅仅要能高效解决商业目标,我们就觉得是牛的方法;
面对海量的数据,即使是使用了最先进的工具,最复杂的算法。可是假设挖掘出来的知识是没用的,或者挖掘的结果是无法解释的,那这样的挖掘也是失败的。非常多人对数据挖掘都有一个误解。觉得一定要使用复杂的工具和复杂的算法,事实上是一种误导。
数据挖掘流程:商业理解、数据收集、数据清洗、数据特征化、数据建模、模型打分、模型验证、模型实施、模型优化
描写叙述分析:对已经发生的现象进行分析。主要分析技术有描写叙述性分析、数据特征化、聚类分析、孤立点分析
因果分析:寻找发生的原因。主要技术有联机分析、相关性分析、回归分析、关联分析、因子分析
分类和预測:
主要分类技术:决策树、判别分析、贝叶斯分类、logistic回归分析、神经网络、支持向量机等
预測技术有:多元线性回归分析、广义线性回归分析、非线性回归分析、神经网络分析
二:商业目标:
1、评价活动的效果:比較分析
通过开展工作组和控制组进行比对。
2.特征分析
比方要分析高价值客户的特征,通过特征化数据(均值、方差、极值)、相关性度量(相关系数、卡方值、基尼系数、熵)、聚类分析、因子分析等发现表面的和潜在的数据特征。
3.市场细分
市场细分由业务主导,而不是技术主导。
细分结果一定要以易于开展营销活动为目的。
4.响应
提高某个营销活动的响应度
5.风险
风险控制指标通常包含:资产负债情况、信用记录、工作稳定性、收入、教育程度、家庭人口结构
风险模型的建立在技术上类似于响应模型,但对于业务上有非常大的差别,比方定义目标变量上,风险模型可能有非常多因素决定。一个比較常见的定义:拖欠额度超过某一数值。并逾期超过3个月的客户作为风险客户(目标变量值为1,其余情况为0)
6.流失
重点在于流失目标变量的定义;
7.提升销售和交叉销售
数据挖掘商业应用的最高原则是:“效率、效果”
3.需求文档
需求文档包含三部分
项目计划文档(ppt)
商业目标、
技术目标、
计划内容、
项目路线图、给出分析团队怎样实施项目的明白时间表和每一阶段的任务
资源:是每个项目阶段所须要的參与项目人员
方法论设计文档(word)
是解决商业需求的技术文档。是一个解决方式。最核心的内容是组合不同的算法,并给出终于能达到的理论目标
变量需求文档(excel)
4.建模流程图
5.logistic建模及结果具体解释
商业应用领域,logistic回归是应用最广泛的预測模型。神经网络存在过度拟合的嫌疑。而决策树可能存在预測结果的不稳定性,而且在大数据的情况下决策树存在失灵现象。因此logistic回归相对于另外两个是一个适度的模型。再加上输出结果有非常好的解释性。应用非常广泛
logistic变换:logit(p)=ln(p/1-p)
logistic回归中。因变量y服从二项分布或多项分布,而线性回归分析中y是服从正态分布
logistic回归中不存在线性回归中的残差项。
logistic回归採用MLE(最大似然预计)。而线性回归分析採用的是LSE(最小二乘预计)
LSE的原理是如果残差独立同分布。然后构造样本函数。使得因变量的观測值和模型预计值之间的离差平方和最小。
MLE的原理。是构造似然函数,对于二值型的logistic回归来说。服从二点分布,
评价模型好坏的指标:
1)拟合优度
拟合优度是衡量预測值和观測值之间的整体一致性。可是在评价模型时。实际上測量的是预測值和观測值之间的区别,实际上是模型预測的“劣度”,即拟合不佳检验,经常使用的指标是HL(hosmer-lemeshow)和IM(information measures)
HL是一种类似于皮尔逊-卡方统计量的指标,相应的统计如果H0是预測值概率和观測值之间无显著差异,因而如果HL有较大的P值,则接受原如果,说明统计结果不显著,因而。不能拒绝关于模型拟合数据非常好的如果,即模型非常好的拟合了数据。能够通过调用lackfit选项命令实现
IM指标中比較显著的是AIC和SC,AIC越小标示拟合模型越好。sc是对aic指标的一种修正。与AIC同向作用
2)卡方统计
卡方统计监測的是模型中所包括的自变量对因变量有显著的解释能力,在多元线性回归和ANOVA中。经常使用F检验达到目的。在logistic中用似然比检验,相当于F检验,在sas输出结果中就是likelihood ratio相应的值。
注:卡方值和拟合优度是两个全然不同的概念,前者度量的是自变量和因变量的ODDS自然对数线性相关。而后者度量的是预測值和观測值之间的一致性,所以,最好是模型卡方统计性显著而拟合优度统计性不显著。
3)预測准确性
预測准确性问题是:检验全部x变量究竟能解释多少Y变量的波动
RSQUARE:Y变异中被解释的比例,
C统计量:度量的是观測值和条件预測概率之间的相对一致性;
指标越高,表示预測概率与观測反应变量之间的关联越密切。
总结例如以下:
统计量 |
趋势 |
作用 |
sas命令 |
备注 |
C统计量 |
越大越好 |
度量的是观測值和条件预測概率之间的相对一致性 |
自己主动输出 |
|
似然比卡方 |
越大越好 |
类似于F检验,度量回归平方和,自变量对因变量的显著解释能力 |
自己主动输出 |
P值越小越好 |
AIC |
越小越好 |
类似于多远回归残差平方和 |
自己主动输出 |
|
RSQUARE |
越大越好 |
Y变异中被解释的比例 |
RSQ |
|
HL统计量 |
越小越好 |
度量观測值与预測值整体的一致性 |
LACKFIT |
P值越大越好 |
商业实战中。一般考虑前两种。由于logistic回归是一个分类模型。目标变量的值仅仅是一个分类标示。因而更关注观測值和预測值之间的相对一致性。而不是绝对一致性,因而分析师更关注于模型预測概率值的排序,而lift图也正是从概率排序结果得到的。
应用举例和输出结果的解释
Proc
Run;
在输出结果association of predicted probabilities and observed responses中最后一列的C统计量。一般大于0.7以上就能够用该模型