第4章 预测力指标——显著性关联性检验

 

一.原因

    1. logistics模型不允许自变量之间有很强的相关性
    2. 过滤预测力较低的变量
    3. 减少变量数量

二.指标 

2.1两个连续变量 

      • 皮尔森相关系数(容易受极端值的影响)

proc corr data=data-set-name;

var var1 var2 ...varn ;

run; 

      • 斯皮尔曼相关系数 (用等级计算,不易受极端值影响)

proc corr data=data-set-name  Spearman;

var var1 var2...varn;

run; 

附:/* 同时计算皮尔森和斯皮尔曼相关系数 */ 

proc corr data=data-set-name

Pearson  Spearman

OUTP=PCorr  OUTS=SCorr;

var var1 var2 var3...varn;

run;

/* 提取相关系数并降序排列 */ 

 %ExtractCorr(SCorr,corr_values); /*输入数据集,输出数据集 */

proc print data=corr_values;

run; 

2.2  x和y都是名义变量或顺序变量

      • 皮尔森卡方统计量

proc freq data=dataset-name order=data;

tables var1*var2/CHISQ;

weight var3;

run;

        •  似然比统计量

2.3  y为连续变量,x为名义或顺序变量

      • F检验   用宏%CalcGrf
      • 基尼方差  (2名义;2顺序;1连续,1名义/顺序) 
        • 有一个连续变量:

%CalcGcf(DSin,Var,YVar,M_Gr,M_Fstar,M_Pval)  /* X输入数据集,名义变量x,连续变量y ,基尼方差的回报,F值的回报,p值的回报 */   

eg: 

/* initialize the macro variables*/

%let DSin=CC ;  %let XVar=default;  

%let YVar=AvgBalance;  %let Gr=; %let Fstar=; %let Pvalue=;

 /*use macro to calculate*/

%CalcGrf(&DSin,&Var,&YVar,Gr,Fstar,Pvalue);

%put Gr=&Gr    Fstar=&Fstar   Pval=&Pvalue;

run; 

        • 都是名义或顺序变量:(也可计算熵方差)

%GNomNom(DSin,XVar,YVar,M_Gr)  /*  输入数据集,第一个变量,第二个变量,基尼方差的回报 */ 

【变换 x和y的位置,基尼方差不同】 

 

2.4 x ,y均为二元变量

      • 概率比【注意:若置信区间位于1的两侧,则不能用概率比判断】 

proc freq data=dataset-name  order=data;

table var1*var2/measures chisq;

weight var3;

run; 

 

2.5 两个名义变量,其中一个是二元变量

      • 信息值IV(不能用于顺序变量,否则顺序被忽略;若用于连续变量,则被分段之后当作名义变量处理) 

 %infovalue(dsin,xvar,yvarbin,m_iv) /*  输入数据集,第一个名义变量,二元因变量,返回的信息值 */

%let dsin=dataset1;

%let xvar=var1;

%let  yvarbin=default;

%let IVx1=;

 %infovalue(&dsin,&xvar,&yvarbin,IVx1);

%put IV=&IVx1 ;

【IV:0.1.~0.30预测力中等;>0.30强;<0.02无预测力;0.02~0.10弱】 

 

2.6 变量选择的自动化

      • 所有自变量类型相同
 %ginipower(dsin,dv,ivlist,dsout) /* 输入数据集,二元因变量,名义自变量清单,输出数据集 */

%PowerFG:连续自变量清单

%PowerOdds:二元自变量清单

 

      • 提取预测力最强的变量

%ExtractTop (DSin,varcol,selvr,method,NTop,cutoff,M_varlist)

  /* 输入数据集,包含变量名的列,包含关联性指标的列,选择方法(1:选择预测力最强NTop的几个变量,2:临界值),NTop的数量,临界值,返回列表 */

 

 

posted @ 2018-02-22 20:38  Jane_lau  阅读(846)  评论(0编辑  收藏  举报