摘要:
1.极端值的识别 极端值的来源无非是数据差错和数据差异。 大多数情况下,极端值被删除或者被重置。但是,当极端值的观测量很大时,需要考虑分群(segments),ie.针对每个群开发独立的评分卡。 识别方法如下: 设定正常的取值范围 考虑数据的多元属性,建立拟合模型,偏离模型值为极端值 聚类算法 依靠 阅读全文
摘要:
一 .计算频率 proc freq data=data-set-name; tables var1; run; /* 输出结果:frequency,percent,cumulative frequency,cumulative percent */ 二.制交叉表cross tabulation pr 阅读全文
摘要:
征信中的特征分析即:对连续变量进行分段,并检查每段中的正常和违约分布,揭示备选预测变量是否与违约率存在相关性。 分段的2种方法:每段中包含等量观测(等高度分段);等宽度分段 代码: /* characteristics analysis */ %let dsin=..; %let varx=..; 阅读全文
摘要:
/* 绘制连续性变量的直方图 */ /* 重新定义宏变量*/ %let DSin=data1; 【输入数据集】 %let DSout=data2; 【输出数据集】 %let XVar=x; 【被分段的变量】 %let Nb=(a number ); 【分段的数量】 %let XBVar =x_b ; 阅读全文
摘要:
语句: proc univariate data=data-set-name mu0=... loccount; var var1; run; 输出结果: 1.moments N, mean,std deviation,skewness, uncorrected SS,sum weights,sum 阅读全文
摘要:
EDA即数据探索,是对数据的初步分析。 包括: 每个候选预测变量 的统计特性和分布 候选预测变量和状态变量之间,以及预测变量相互间是否存在相关性 检测缺失值和极端值,评估其对结果模型的冲击 调查候选变量中的分布情况,如正常和违约的分布情况 实践中,以上步骤即: 对每个变量的单变量描述性统计 评估每个 阅读全文