第4章预测力指标——显著性关联性检验

一.原因

1. logistics模型不允许自变量之间有很强的相关性
2. 过滤预测力较低的变量
3. 减少变量数量

二.指标

2.1两个连续变量

- - 皮尔森相关系数（容易受极端值的影响）

proc corr data=data-set-name;

var var1 var2 ...varn ;

run;

- - 斯皮尔曼相关系数（用等级计算，不易受极端值影响）

proc corr data=data-set-name Spearman;

var var1 var2...varn;

run;

附：/* 同时计算皮尔森和斯皮尔曼相关系数 */

proc corr data=data-set-name

Pearson Spearman

OUTP=PCorr OUTS=SCorr;

var var1 var2 var3...varn;

run;

/* 提取相关系数并降序排列 */

%ExtractCorr(SCorr,corr_values); /*输入数据集，输出数据集 */

proc print data=corr_values;

run;

2.2 x和y都是名义变量或顺序变量

- - 皮尔森卡方统计量

proc freq data=dataset-name order=data;

tables var1*var2/CHISQ;

weight var3;

run;

- - 似然比统计量

2.3 y为连续变量，x为名义或顺序变量

- - F检验用宏%CalcGrf
  - 基尼方差（2名义；2顺序；1连续，1名义/顺序）
    - 有一个连续变量：

%CalcGcf(DSin,Var,YVar,M_Gr,M_Fstar,M_Pval) /* X输入数据集，名义变量x,连续变量y ,基尼方差的回报，F值的回报，p值的回报 */

eg:

/* initialize the macro variables*/

%let DSin=CC ; %let XVar=default;

%let YVar=AvgBalance; %let Gr=; %let Fstar=; %let Pvalue=;

/*use macro to calculate*/

%CalcGrf(&DSin,&Var,&YVar,Gr,Fstar,Pvalue);

%put Gr=&Gr Fstar=&Fstar Pval=&Pvalue;

run;

- - - 都是名义或顺序变量：(也可计算熵方差)

%GNomNom(DSin,XVar,YVar,M_Gr) /* 输入数据集，第一个变量，第二个变量，基尼方差的回报 */

【变换 x和y的位置，基尼方差不同】

2.4 x ,y均为二元变量

- - 概率比【注意：若置信区间位于1的两侧，则不能用概率比判断】

proc freq data=dataset-name order=data;

table var1*var2/measures chisq;

weight var3;

run;

2.5 两个名义变量，其中一个是二元变量

- - 信息值IV（不能用于顺序变量，否则顺序被忽略；若用于连续变量，则被分段之后当作名义变量处理）

%infovalue(dsin,xvar,yvarbin,m_iv) /* 输入数据集，第一个名义变量，二元因变量，返回的信息值 */

%let dsin=dataset1;

%let xvar=var1;

%let yvarbin=default;

%let IVx1=;

%infovalue(&dsin,&xvar,&yvarbin,IVx1);

%put IV=&IVx1 ;

【IV：0.1.~0.30预测力中等；>0.30强；<0.02无预测力；0.02~0.10弱】

2.6 变量选择的自动化

- - 所有自变量类型相同

%ginipower(dsin,dv,ivlist,dsout) /* 输入数据集，二元因变量，名义自变量清单，输出数据集 */

%PowerFG:连续自变量清单

%PowerOdds:二元自变量清单

- - 提取预测力最强的变量

%ExtractTop (DSin,varcol,selvr,method,NTop,cutoff,M_varlist)

/* 输入数据集，包含变量名的列，包含关联性指标的列，选择方法（1：选择预测力最强NTop的几个变量，2：临界值），NTop的数量，临界值，返回列表 */

posted @ 2018-02-22 20:38 Jane_lau 阅读(881) 评论(0) 收藏举报

刷新页面返回顶部

Jane_lau

第4章 预测力指标——显著性关联性检验

公告

第4章预测力指标——显著性关联性检验