2018 年 2月 22 日随笔档案 - Jane_lau

2018年2月22日

摘要：一.原因二.指标 2.1两个连续变量皮尔森相关系数（容易受极端值的影响）皮尔森相关系数（容易受极端值的影响）皮尔森相关系数（容易受极端值的影响） proc corr data=data-set-name; var var1 var2 ...varn ; run; 斯皮尔曼相关系数（用等级计阅读全文

posted @ 2018-02-22 20:38 Jane_lau 阅读(828) 评论(0) 推荐(0) 编辑

3.6评分卡极端值的识别以及处理

摘要： 1.极端值的识别极端值的来源无非是数据差错和数据差异。大多数情况下，极端值被删除或者被重置。但是，当极端值的观测量很大时，需要考虑分群（segments）,ie.针对每个群开发独立的评分卡。识别方法如下：设定正常的取值范围考虑数据的多元属性，建立拟合模型，偏离模型值为极端值聚类算法依靠阅读全文

posted @ 2018-02-22 15:45 Jane_lau 阅读(1064) 评论(0) 推荐(0) 编辑

3.5列联表分析

摘要：一 .计算频率 proc freq data=data-set-name; tables var1; run; /* 输出结果：frequency，percent，cumulative frequency，cumulative percent */ 二.制交叉表cross tabulation pr 阅读全文

posted @ 2018-02-22 12:44 Jane_lau 阅读(640) 评论(0) 推荐(0) 编辑

3.4征信中的特征分析——用宏%chcanalysis

摘要：征信中的特征分析即：对连续变量进行分段，并检查每段中的正常和违约分布，揭示备选预测变量是否与违约率存在相关性。分段的2种方法：每段中包含等量观测（等高度分段）；等宽度分段代码： /* characteristics analysis */ %let dsin=..; %let varx=..; 阅读全文

posted @ 2018-02-22 12:31 Jane_lau 阅读(228) 评论(0) 推荐(0) 编辑

3.3描述变量分布——用宏%EqWBinn

摘要： /* 绘制连续性变量的直方图 */ /* 重新定义宏变量*/ %let DSin=data1; 【输入数据集】 %let DSout=data2; 【输出数据集】 %let XVar=x; 【被分段的变量】 %let Nb=(a number ); 【分段的数量】 %let XBVar =x_b ; 阅读全文

posted @ 2018-02-22 12:09 Jane_lau 阅读(255) 评论(0) 推荐(0) 编辑

3.2单变量分析 proc univariate

摘要：语句： proc univariate data=data-set-name mu0=... loccount; var var1; run; 输出结果： 1.moments N, mean,std deviation,skewness, uncorrected SS,sum weights,sum 阅读全文

posted @ 2018-02-22 11:43 Jane_lau 阅读(549) 评论(0) 推荐(0) 编辑

3.1EDA和数据描述：探索性数据分析

摘要： EDA即数据探索，是对数据的初步分析。包括：每个候选预测变量的统计特性和分布候选预测变量和状态变量之间，以及预测变量相互间是否存在相关性检测缺失值和极端值，评估其对结果模型的冲击调查候选变量中的分布情况，如正常和违约的分布情况实践中，以上步骤即：对每个变量的单变量描述性统计评估每个阅读全文

posted @ 2018-02-22 11:25 Jane_lau 阅读(1156) 评论(0) 推荐(0) 编辑

Jane_lau

公告