第4章 预测力指标——显著性关联性检验
一.原因
- logistics模型不允许自变量之间有很强的相关性
- 过滤预测力较低的变量
- 减少变量数量
二.指标
2.1两个连续变量
-
-
- 皮尔森相关系数(容易受极端值的影响)
-
proc corr data=data-set-name;
var var1 var2 ...varn ;
run;
-
-
- 斯皮尔曼相关系数 (用等级计算,不易受极端值影响)
-
proc corr data=data-set-name Spearman;
var var1 var2...varn;
run;
附:/* 同时计算皮尔森和斯皮尔曼相关系数 */
proc corr data=data-set-name
Pearson Spearman
OUTP=PCorr OUTS=SCorr;
var var1 var2 var3...varn;
run;
/* 提取相关系数并降序排列 */
%ExtractCorr(SCorr,corr_values); /*输入数据集,输出数据集 */
proc print data=corr_values;
run;
2.2 x和y都是名义变量或顺序变量
-
-
- 皮尔森卡方统计量
-
proc freq data=dataset-name order=data;
tables var1*var2/CHISQ;
weight var3;
run;
-
-
- 似然比统计量
-
2.3 y为连续变量,x为名义或顺序变量
-
-
- F检验 用宏%CalcGrf
- 基尼方差 (2名义;2顺序;1连续,1名义/顺序)
- 有一个连续变量:
-
%CalcGcf(DSin,Var,YVar,M_Gr,M_Fstar,M_Pval) /* X输入数据集,名义变量x,连续变量y ,基尼方差的回报,F值的回报,p值的回报 */
eg:
/* initialize the macro variables*/
%let DSin=CC ; %let XVar=default;
%let YVar=AvgBalance; %let Gr=; %let Fstar=; %let Pvalue=;
/*use macro to calculate*/
%CalcGrf(&DSin,&Var,&YVar,Gr,Fstar,Pvalue);
%put Gr=&Gr Fstar=&Fstar Pval=&Pvalue;
run;
-
-
-
- 都是名义或顺序变量:(也可计算熵方差)
-
-
%GNomNom(DSin,XVar,YVar,M_Gr) /* 输入数据集,第一个变量,第二个变量,基尼方差的回报 */
【变换 x和y的位置,基尼方差不同】
2.4 x ,y均为二元变量
-
-
- 概率比【注意:若置信区间位于1的两侧,则不能用概率比判断】
-
proc freq data=dataset-name order=data;
table var1*var2/measures chisq;
weight var3;
run;
2.5 两个名义变量,其中一个是二元变量
-
-
- 信息值IV(不能用于顺序变量,否则顺序被忽略;若用于连续变量,则被分段之后当作名义变量处理)
-
%infovalue(dsin,xvar,yvarbin,m_iv) /* 输入数据集,第一个名义变量,二元因变量,返回的信息值 */
%let dsin=dataset1;
%let xvar=var1;
%let yvarbin=default;
%let IVx1=;
%infovalue(&dsin,&xvar,&yvarbin,IVx1);
%put IV=&IVx1 ;
【IV:0.1.~0.30预测力中等;>0.30强;<0.02无预测力;0.02~0.10弱】
2.6 变量选择的自动化
-
-
- 所有自变量类型相同
-
%ginipower(dsin,dv,ivlist,dsout) /* 输入数据集,二元因变量,名义自变量清单,输出数据集 */
%PowerFG:连续自变量清单
%PowerOdds:二元自变量清单
-
-
- 提取预测力最强的变量
-
%ExtractTop (DSin,varcol,selvr,method,NTop,cutoff,M_varlist)
/* 输入数据集,包含变量名的列,包含关联性指标的列,选择方法(1:选择预测力最强NTop的几个变量,2:临界值),NTop的数量,临界值,返回列表 */