2018 年 2月 23 日随笔档案 - Jane_lau

2018年2月23日

摘要：一.原理最大似然法则（ML）略... 信息矩阵是似然函数二阶导数的矩阵二.TIPS 当数据线性可分【自变量的线性组合可以将数据完全分类时，就发生了数据的线性可分】时，模型将：似然函数是无限的，即没有最大值模型的参数估计值无限实践当中，当模型拟合使用的数据集只有少量的观测值且包含大量二元自阅读全文

posted @ 2018-02-23 21:24 Jane_lau 阅读(358) 评论(0) 推荐(0) 编辑

7.1&7.2 logistics 基本公式

摘要：一.相关符号说明 p：事件y=1的概率（违约概率） logit函数：ln{p/(1-p)},是logistics模型的因变量,又可以表示为z p/(1-p):比率；即logit函数是比率的自然对数联系函数：应用概率P的函数形式（当因变量为二元变量，系统默认为logit函数）二.代码实现 proc 阅读全文

posted @ 2018-02-23 21:12 Jane_lau 阅读(647) 评论(0) 推荐(0) 编辑

第6章信用卡样本数据集

摘要：一.数据字典公共信息字段：预测违约，即决定是否授信其他字段：已签发信用卡的客户行为，可用于开发行为信用卡或监测已有客户行为并防范风险二.宏%include:读取和执行相关项 %let dir=文件物理地址; %include "&dir"; 阅读全文

posted @ 2018-02-23 20:57 Jane_lau 阅读(450) 评论(0) 推荐(0) 编辑

5.4数据准备之抽样和权重计算

摘要：一.抽样方法随机抽样可以用来开发训练和测试样本均衡抽样（对称抽样）中，设计的样本中的目标变量具有特定的构成。另外在logistic回归模型中，总体中正常和违约事件的初始比例应当作为因变量的先验概率？？？分层抽样中，用一个或多个与业务申请相关的变量值将数据分层二.样本规模依据内部标准实际实践阅读全文

posted @ 2018-02-23 20:43 Jane_lau 阅读(1198) 评论(0) 推荐(0) 编辑

5.3数据准备之连续变量分段

摘要： %EqWBinn 2.最优分段 %BinCoutVar(DSin,IVVar,DVVar,Method,MMax,Acc,DSVarMap) /* 输入数据集，进行分段的连续自变量，变量VarX的分段形式，由宏% BinCoutVar生成的分段限制数据库，输出数据集 */ 阅读全文

posted @ 2018-02-23 17:13 Jane_lau 阅读(1102) 评论(0) 推荐(0) 编辑

5.1&5.2数据准备之降低基数

摘要：一.数据准备合并类别，降低基数将连续变量分段，WOE 抽样和权重计算合并类别，降低基数将连续变量分段，WOE 抽样和权重计算合并类别，降低基数将连续变量分段，WOE 抽样和权重计算前两项任务称为变量分群。决策树软件包的GUI，是进行最优分群的常用工具。？？？二.降低基数且使预测能力阅读全文

posted @ 2018-02-23 16:55 Jane_lau 阅读(330) 评论(0) 推荐(0) 编辑

Jane_lau

公告