摘要: 一.原因 二.指标 2.1两个连续变量 皮尔森相关系数(容易受极端值的影响) 皮尔森相关系数(容易受极端值的影响) 皮尔森相关系数(容易受极端值的影响) proc corr data=data-set-name; var var1 var2 ...varn ; run; 斯皮尔曼相关系数 (用等级计 阅读全文
posted @ 2018-02-22 20:38 Jane_lau 阅读(828) 评论(0) 推荐(0) 编辑
摘要: 1.极端值的识别 极端值的来源无非是数据差错和数据差异。 大多数情况下,极端值被删除或者被重置。但是,当极端值的观测量很大时,需要考虑分群(segments),ie.针对每个群开发独立的评分卡。 识别方法如下: 设定正常的取值范围 考虑数据的多元属性,建立拟合模型,偏离模型值为极端值 聚类算法 依靠 阅读全文
posted @ 2018-02-22 15:45 Jane_lau 阅读(1064) 评论(0) 推荐(0) 编辑
摘要: 一 .计算频率 proc freq data=data-set-name; tables var1; run; /* 输出结果:frequency,percent,cumulative frequency,cumulative percent */ 二.制交叉表cross tabulation pr 阅读全文
posted @ 2018-02-22 12:44 Jane_lau 阅读(640) 评论(0) 推荐(0) 编辑
摘要: 征信中的特征分析即:对连续变量进行分段,并检查每段中的正常和违约分布,揭示备选预测变量是否与违约率存在相关性。 分段的2种方法:每段中包含等量观测(等高度分段);等宽度分段 代码: /* characteristics analysis */ %let dsin=..; %let varx=..; 阅读全文
posted @ 2018-02-22 12:31 Jane_lau 阅读(228) 评论(0) 推荐(0) 编辑
摘要: /* 绘制连续性变量的直方图 */ /* 重新定义宏变量*/ %let DSin=data1; 【输入数据集】 %let DSout=data2; 【输出数据集】 %let XVar=x; 【被分段的变量】 %let Nb=(a number ); 【分段的数量】 %let XBVar =x_b ; 阅读全文
posted @ 2018-02-22 12:09 Jane_lau 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 语句: proc univariate data=data-set-name mu0=... loccount; var var1; run; 输出结果: 1.moments N, mean,std deviation,skewness, uncorrected SS,sum weights,sum 阅读全文
posted @ 2018-02-22 11:43 Jane_lau 阅读(549) 评论(0) 推荐(0) 编辑
摘要: EDA即数据探索,是对数据的初步分析。 包括: 每个候选预测变量 的统计特性和分布 候选预测变量和状态变量之间,以及预测变量相互间是否存在相关性 检测缺失值和极端值,评估其对结果模型的冲击 调查候选变量中的分布情况,如正常和违约的分布情况 实践中,以上步骤即: 对每个变量的单变量描述性统计 评估每个 阅读全文
posted @ 2018-02-22 11:25 Jane_lau 阅读(1156) 评论(0) 推荐(0) 编辑