摘要: 一.原理 最大似然法则(ML) 略... 信息矩阵是似然函数二阶导数的矩阵 二.TIPS 当数据线性可分【自变量的线性组合可以将数据完全分类时,就发生了数据的线性可分】时,模型将: 似然函数是无限的,即没有最大值 模型的参数估计值无限 实践当中,当模型拟合使用的数据集只有少量的观测值且包含大量二元自 阅读全文
posted @ 2018-02-23 21:24 Jane_lau 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 一.相关符号说明 p:事件y=1的概率(违约概率) logit函数:ln{p/(1-p)},是logistics模型的因变量,又可以表示为z p/(1-p):比率;即logit函数是比率的自然对数 联系函数:应用概率P的函数形式(当因变量为二元变量,系统默认为logit函数) 二.代码实现 proc 阅读全文
posted @ 2018-02-23 21:12 Jane_lau 阅读(638) 评论(0) 推荐(0) 编辑
摘要: 一.数据字典 公共信息字段:预测违约,即决定是否授信 其他字段:已签发信用卡的客户行为,可用于开发行为信用卡或监测已有客户行为并防范风险 二.宏%include:读取和执行相关项 %let dir=文件物理地址; %include "&dir"; 阅读全文
posted @ 2018-02-23 20:57 Jane_lau 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 一.抽样方法 随机抽样可以用来开发训练和测试样本 均衡抽样(对称抽样)中,设计的样本中的目标变量具有特定的构成。另外在logistic回归模型中,总体中正常和违约事件的初始比例应当作为因变量的先验概率??? 分层抽样中,用一个或多个与业务申请相关的变量值将数据分层 二.样本规模 依据内部标准实际实践 阅读全文
posted @ 2018-02-23 20:43 Jane_lau 阅读(1160) 评论(0) 推荐(0) 编辑
摘要: %EqWBinn 2.最优分段 %BinCoutVar(DSin,IVVar,DVVar,Method,MMax,Acc,DSVarMap) /* 输入数据集,进行分段的连续自变量,变量VarX的分段形式,由宏% BinCoutVar生成的分段限制数据库,输出数据集 */ 阅读全文
posted @ 2018-02-23 17:13 Jane_lau 阅读(1100) 评论(0) 推荐(0) 编辑
摘要: 一.数据准备 合并类别,降低基数 将连续变量分段,WOE 抽样和权重计算 合并类别,降低基数 将连续变量分段,WOE 抽样和权重计算 合并类别,降低基数 将连续变量分段,WOE 抽样和权重计算 前两项任务称为变量分群。 决策树软件包的GUI,是进行最优分群的常用工具。??? 二.降低基数且使预测能力 阅读全文
posted @ 2018-02-23 16:55 Jane_lau 阅读(328) 评论(0) 推荐(0) 编辑