导航

信用风险评分卡研究-第4章笔记

Posted on 2018-10-31 21:22  高山老王  阅读(765)  评论(0编辑  收藏  举报

本章将继续探讨信用风险评分中使用的EDA过程,并重点介绍对候选自变量预测力的判断。首先,要明确区分相关性和关联性指标之间的细微差别。在统计学上,术语相关性是用来表示两个变量取值之间线性关系的一系列特定指标。被考察的变量可以是连续变量或顺序变量。其他所有形式的非线性关系都通过所谓的关联性指标进行称量。

通常,需要称量变量间的相关性和关联性的原因有以下几条:
1、将在模型中被用作预测指标的变量相互之间不能具有很强的相关性,或者最好是完全不存在相关性。其原因就在于LOGISTIC回归限制,它不允许自变量之间是线性相关的。
2、如果某些变量相互之间具有很强的相关性或关联性,简而言之,这意味着它们包含相同的信息内容。因子分析(Factor Analysis,FA)和主成分分析(Principal Component analysis,PCA)是尝试找出决定数据方差的最少自变量的统计技术。假设这些要素是原始变量的组合。如果这些变量间具有很强的相关性,FA和PCA可以显著减少变量的数量。
而且,在一个模型中使用一系列具有很强相关性的变量作为预测,即使建模算法允许,最后得到的模型也只能根据有限数量的独立信息片段做出预测。可以预见到这种模型做出的预测要比使用更广泛的自变量数据建立的模型预测力弱。
3、大多数信贷发放机构都会拥有丰富的客户数据,这些数据以客户拥有的其他产品交易记录以及人口统计数据的形式存在。根据对正常/违约信用状态的预测力,从这些众多的变量中选择一个最优子集。通常,选择哪些与违约状态变量(因变量)之间表现出很强关联性的变量。
因此,通过判断因变量和候选自变量之间的相关性或关联性水平可以过滤掉预测力较低的变量。
本章剩余部分将讨论这些衡量指标和它们的SAS实现过程。在本章最后,将讨论如何用些衡量指标自动实现变量选择过程。
以下是本章将要介绍相关性和关联性指标的常用符号。
X2:皮尔森卡方统计量
P:皮尔森相关系数
pn:斯皮尔曼相关系统
G:基尼方差
0:概率比
G:似然比检验统计量
E:熵方差
IV:信息值

符号
不同的相关性和关联性指标的定义需要使用大量的符号。根据变量类型,可以将这些符号简化为三组。如表4.2所示,在任何情况下都按照两个变量,X和Y,来定义衡量指标。假设两个变量都是自变量,或者其中一个是因变量,此时因变量是变量Y。上述三种情况分别是:
1、X和Y都连续变量
2、Y是连续变量,X是名义变量或顺序变量
3、X和Y都是名义变量或顺序变量

1、两个连续变量
这种情况的符号最简单。总计有N个观测值,其中变量X和Y的取值( x1,y1),(x2,y2),...,(xn,yn);在第4.3和4.4节中,将用这些符号分别定义皮尔森相关系数和斯皮尔曼相关系数;
2、两个名义变量
这种情况下,符号是基于列联表或频率表。表4.3是两个名义变量x和y的一个双向频率表。变量x的类别表示为表中的行,而变量y的类别表示为表中的列。
对于两个名义变量的情况,PROC FREQ 是SAS中生成双向频率表的最有效的程序。实际上,对于所有类型的变量,PROC FREQ都可以生成这种频数表。但只有在所有变量的分类数都较小的情况,其结果才具有实践意义。
3、名义变量x和连续变量y。

皮尔森相关系数
皮尔森相关系数的取值总是在-1.0到1.0之间。皮尔森相关系数值接近0的变量被称为无相关性。皮尔相关系数值接近于-1或1的变量被称强相关。

皮尔森相关系数衡量的是线性相关性的程度。皮尔森相关系数的一个几何解释是其代表两个变量的取值根据均值集中后构成的向量之间夹角的余弦。

PROC CORR 可以计算多个相关系数。皮尔森相关系数是PROC CORR语句中默认的指标。
可以很容易算出皮尔森相关系数,但并不推荐这样做。皮尔森相关系数使用的是每个观测值与平均值之间的距离(由方差归一)。由于原则上无法准确定义顺序变量各类别之间的距离,导致计算出来的相关系数不是变量间的关联性的真实表示。因此,建议对顺序变量使用斯皮尔曼相关系数。
为了避免上面提到的由于数据错误和极端值导致的皮尔森相关系数的不稳定性问题,计算斯皮尔曼相关系数使用的不是取值,而是等级。

斯皮尔曼相关系数
斯皮尔曼相关系数采用的是取值的等级,而不是取值本身。当取值按照升序排序时,取值的等级就是该取值的顺序。

相对于皮尔森相关系数,斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。

皮尔森卡方统计量
用于衡量两个名义(类别)变量之间的关联性,其来自列联表中的频率数。PROC FREQ可以生成两个类别变量列联表中的频数率。PROC FREQ 可以在TABLES语句中用选项CHISQ计算皮尔森卡方统计量。

似然比检验统计量
似然比检验统计量,用G表示,是基于最大似然估计原理(MLE)。MLE的工作原理是定义一个似然函数,赋予其所需求的解的特征。本例关注的是找出能够获得一个名义变量的类别的一定频率的概率。

G服从自由度为(r-1)的渐进卡方分布。这意味着,通过找出自由度为(r-1)的卡方概率密度为分布下区域的面积,可以检验样本中频率分布在一定的显著水平下是否与总体存在差异。
本章后续部分以及第12章中,将用公式4.21定义的其它统计量。

概率比
如果两个变量都只分为两类,即二元的,就是列联表的一个特殊情况。其符号将减少。
概率比独立于列联表中事件的顺序(列)或类别(行)
如果概率比取值为1.0,或从任何方向上远近于1.0时,可以推断出变量X的分类相对于变量Y的分类的频率分布不存在差异。换句话说,就是两个变量之间不存在关联性。
一方面,在选择纳入模型的候选自变量的过程中,要选择与违约状态指标具有较强的关联性的变量。另一方面,如果变量x和y都是独立变量,可以推导出它们是相互独立的。
PROC FREQ 可以用选项MEASURES计算概率比的置信区间。
通常,可以概率比的置信区间检查它们是否都位于单位1的同一侧。如果不是,说明不能用概率云证明变量x和y之间是否存在关联性。例如,如果在95%的置信区间里概率比是(1.05,0.93),则无法推断变量间是否存在关联性。

大多数据情况下,概率比的结果还能够得到皮尔森卡方统计量和似然比检验统计量相似结论的支持。
概率比在LOGISTIC回归模型中起着关键的作用,而LOGISTIC回归模型是创建评分卡的主要建模工具。

F检验
之前,本章已经介绍了几个判断类型变量,即连续变量和连续变量之间或名义变量和名义变量之间,相关性和关联性的指标.接下来,将介绍几个对不同类型变量之间相关性和关联性进行衡量的指标.
F检验衡量的是一个连续变量和一个名义变量之间的关联性.
其中,谁是因变量并不重要。该检验对两种情况都有效。

如果X是二元变量,并用1和0表示,F值及其相关联的p值可以用线性回归模型进行计算,模型中y作为因变量,x作为唯一的自变量。用线性回归计算出来的F值可以用其p值进行解释,p值是可以建立模型的概率,即变量x和y之间无关联性概率。

基尼方差
基尼方差被定义为衡量三种情况下变量之间关联性的指标:
1、一个连续变量和一个名义变量或顺序变量
2、两个名义变量
3、两个顺序变量

如果X是二元变量,基尼方差将简化为判别系数R2,可以用来判断线性回归模型的质量。这种情况下,线性回归模型用变量Y作为因变量,而变量X将是唯一的自变量。
宏%CalGrF可以计算基尼方差和F及其p值。这些值将作为M_参数返回,因而在调用宏之前要初始化为空的字符串。

尽管F检验和基尼方差可以用线性回归生成,但明确建议用实验室,如%CalGrF,进行计算,原因如下:
1、线性回归要求将名义变量的类别映射为数值型虚拟变量。
这是一个额外的数据准备阶段,在数据描述阶段和选择最重要的预测变量阶段都不需要进行。
2、只有在名义变量X是二元变量的情况下,线性回归才可以计算这些值。
3、PROC REG 生成的F及其P值并不是一种简单易用的形式。这些值只是打印在输出窗口,但并没有存储在外部数据集或宏变量中。这使得难以在变量选择的自动化进程中使用该结果,而这又是数据描述和变量选择的最终目的。

宏%GNomNom可以计算两个具有字符值 的名义变量的基尼方差。
例4.12表明,当将变量x和y带入公式4.35中,基尼指数是非对称的。这意味着变换这两个变量在公式中的角色将导致不同的结果。因为x和y都是名义变量,这个结果可以预见的。

熵方差
首先,考虑一个类别变量x和一个连续变量y的情况。

由于这个情况,对于一个名义变量x和一个连续变量y的情况,不需要特别的宏来计算熵方差。用宏%ENomNom来计算熵方差
在变量x和变量y中熵方差是非对称的。

信息值IV,是衡量两个名义变量,其中一个二元变量,之间关联性的指标。
变量中y各列中的信息是对称的,即,将公式中的相互替换,得到的IV相同。然而,不能将变量x和变量y互换,因为IV的定义只针对二元变量y。即使x也是二元变量,信息值对于x和y也是非对称的。
信息值和似然比检验统计量之间关系密切。回顾任意样本中类别的分布和已知分布的似然比统计量的定义为:

可以用卡方分布为信息值的取值和类别数r指定一个显著水平。
在上述基础上,当前的信用评分卡开发实践中,提供了用信息值决定候选自变量的预测力的一般准则。
用IV解释预测力:
<0.02 无预测力
0.02<=IV<0.10 弱
0.10<=IV<0.30 中等
0.30<=IV 强

信息值的定义仅仅针对二元变量y和一个名义变量x。因此,将其应用于一个顺序变量x时,顺序关系将被忽略,且该变量被当作一个名义变量对待。如果X是连续变量,该变量被分段,且这些分段将被当作一个名义变量的无序的类别对待。

宏%InfoValue 的参数。对于包含字符值的名义变量x和取值为1和0的二元因变量,该参数用于计算其信息值。

变量选择的自动化
本章已经介绍了几个衡量变量间关联性和相关性的统计量。这些衡量指标或者用于判断候选自变量的预测力,或者用于评估自变量之间的关联性,以去掉那些被 证明无法给模型带来额外价值的变量。在上述任何一项工作任务中,都需要一个自动计算不同衡量指标的程序。本节将介绍实施这种自动变量选择程序的SAS宏。
关注的重点是判断候选自变量的预测力的情况。首先有一个因变量,违约状态指标,以及一系列候选自变量。假设所有自变量是同一种类型,即全部都是名义变量、顺序变量或连续变量,没有多种类型变量混杂的情况。宏%PowerGini,其参数见表,用于基尼方差计算一系列变量的预测力,其生成的值存储在一个数据集中。
这是实际检查宏实施内部运作的几种情况之一。下面将运行宏%Ginipower,因为计算不同衡量指标的其他宏实施都遵循同样的步骤。

基本上,宏可以被定义分成以下三个部分:
1、将变量名称的清单,IVList,分解成单个的标识并将其存储为宏变量。
2、用宏%GNomBin对这些变量进行循环操作,计算基尼方差的值。通过一个使用PROC SQL 的INSERT语句将计算的每个基尼方差存储在数据集中。
3、宏将基尼方差按照降序排列,以方便找出最具预测力的变量。

需要注意的是,对于每一个标记过的变量名称,通过计算基尼方差可以将前两个步骤合并为一步实施。然而,为了使实施过程更清楚,可以将其分为两个步骤。

计算关联性指标而不是基尼方法,如熵方差或信息值,只需要通过调用适当的宏对第二个步骤进行调整。列Measure Macro表示用于计算变量选择过程中使用的适当指标的宏的名称。
所有这些宏设计的工作对象都是一个二元因变量,即信用风险评分的情况。调用这些宏的参数遵循4.19的总体方案。
比较概率比的值不同于所有其他衡量指标。在其他衡量指标的情况下,衡量指标的值越大,两个变量间的关联性越强。而相反,在概率比的情况,更令人感兴趣的是偏离单位值的概率比,而不是简单的最高值。因而,宏%PowerOlds可以计算一个额外的数值,标准化的概率比,使得到的所有概率比都大于1.这样可以通过仅计算小于1的概率值的逆,使得用于提取预测力最强的变量的宏只要使用最大值。因此,定义标准化的概率比如下。
现在,介绍一个宏,读取表4.20中介绍的宏生成的数据集,并从中提取预测力最强的变量。通常,通过指定预期的预测力最强的变量数,或衡量指标最小允许值,实现上述目标。
例如:首先,有40个候选自变量。其次用宏%PowerIV计算排序为人信息值。最后,决定仅保留信息值超过一定量,如0.02,的所有变量。这个选择过程可以用宏%ExtrctTop实现。

本例介绍如何用宏%ExtrctTop从数据中提取预测力最强的变量。首先生成一个数据集,其中的变量是从信用卡申请中获取的。列表4.18中代码概括了生成这个数据集的两个主要步骤。

通过调用宏%PowerIV,可以计算数据集中所有变量的信息值。
现在,实验两种变量选择的方法。首先,通过设定的Method=1调用宏%ExtrcTop,选择预测力最强的前三个变量,详见列表4.20.
其次,前三个预测变量将在SAS的日志窗口中输出,本例中,这些变量将是Gender,ResType和AppChannel。
最后,通过设定Method=2并给定参数值Cutoff=0.015,可以选择信息值超过0.015的预测力较强的变量。
代码4.21的结果是仅选择两个变量,Gender和ResType,因为这是满足临界条件的仅有的两个变量。