摘要: 1.极端值的识别 极端值的来源无非是数据差错和数据差异。 大多数情况下,极端值被删除或者被重置。但是,当极端值的观测量很大时,需要考虑分群(segments),ie.针对每个群开发独立的评分卡。 识别方法如下: 设定正常的取值范围 考虑数据的多元属性,建立拟合模型,偏离模型值为极端值 聚类算法 依靠 阅读全文
posted @ 2018-02-22 15:45 Jane_lau 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 一 .计算频率 proc freq data=data-set-name; tables var1; run; /* 输出结果:frequency,percent,cumulative frequency,cumulative percent */ 二.制交叉表cross tabulation pr 阅读全文
posted @ 2018-02-22 12:44 Jane_lau 阅读(643) 评论(0) 推荐(0) 编辑
摘要: 征信中的特征分析即:对连续变量进行分段,并检查每段中的正常和违约分布,揭示备选预测变量是否与违约率存在相关性。 分段的2种方法:每段中包含等量观测(等高度分段);等宽度分段 代码: /* characteristics analysis */ %let dsin=..; %let varx=..; 阅读全文
posted @ 2018-02-22 12:31 Jane_lau 阅读(230) 评论(0) 推荐(0) 编辑
摘要: /* 绘制连续性变量的直方图 */ /* 重新定义宏变量*/ %let DSin=data1; 【输入数据集】 %let DSout=data2; 【输出数据集】 %let XVar=x; 【被分段的变量】 %let Nb=(a number ); 【分段的数量】 %let XBVar =x_b ; 阅读全文
posted @ 2018-02-22 12:09 Jane_lau 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 语句: proc univariate data=data-set-name mu0=... loccount; var var1; run; 输出结果: 1.moments N, mean,std deviation,skewness, uncorrected SS,sum weights,sum 阅读全文
posted @ 2018-02-22 11:43 Jane_lau 阅读(567) 评论(0) 推荐(0) 编辑
摘要: EDA即数据探索,是对数据的初步分析。 包括: 每个候选预测变量 的统计特性和分布 候选预测变量和状态变量之间,以及预测变量相互间是否存在相关性 检测缺失值和极端值,评估其对结果模型的冲击 调查候选变量中的分布情况,如正常和违约的分布情况 实践中,以上步骤即: 对每个变量的单变量描述性统计 评估每个 阅读全文
posted @ 2018-02-22 11:25 Jane_lau 阅读(1164) 评论(0) 推荐(0) 编辑
摘要: 一.原理和基础 1.大脑空间记忆能力更强 2.以熟记新法,以建立联系 二.datails 找一些熟悉的地点作为桩子,把需要记忆的东西储存在桩子中,并建立联系。 三.地点桩的特点 熟悉,有序,有特征(每个桩子都有自己的特征) (一般30个地点,对桩子分组来记住桩子的序号。扑克桩是26) 四.对桩子的加 阅读全文
posted @ 2018-02-21 20:26 Jane_lau 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 韩语语法大全:韩国语的句子种类 — 陈述句 陈述句也叫叙述句,是指说话者对听者没有任何要求,只是对于某一现象或者事实转达信息或自己想法的句子。叙述形词尾有”-다,-(ㄴ/는)다”、“-네” “-소/-(으)오”、“-습니 다/-ㅂ습니다” 、“-어/아”、 “-지”、 “-어/아요,-이에요/예요” 阅读全文
posted @ 2018-02-16 22:03 Jane_lau 阅读(882) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘步骤及相关资料推荐 阅读全文
posted @ 2018-02-15 16:41 Jane_lau 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 一.运用By语句 proc sort data=data-set1 out=data-set2; by var1; run; proc sort data=data-set3 out=data-set4; by var1; run; data data-set5; merge data-set2 d 阅读全文
posted @ 2018-02-15 00:56 Jane_lau 阅读(550) 评论(0) 推荐(0) 编辑