整体建模思路
1、拿到样本先分训练集和测试集,0.7或0.8,根据样本数量考虑是否增加验证集,本次不增加验证集。
2、对训练集样本进行初筛。iv大于0.01,相关系数低于80%,缺失率根据变量中文名无特殊情况,不得高于80%。
3、对训练集先用决策树分6-8箱。此时对变量进行二次筛选。主要考虑变量是否大体单调、倒挂、具有解释性、是否集中、箱与箱之间是否能拉开差距。
4、对二筛变量考虑衍生变量。
5、进行共线性检查,VIF大于3需要删掉。再进行相关性检测,大于70%的删掉。
6、对变量进行调箱。一般五箱,缺失值视情况决定是否合并到坏样本率相近的箱。
7、转woe编码,对测试集也进行同样操作。
8、对训练集和测试集的变量做稳定性检测psi大于25%的变量画出训练集和测试集的坏样本对比图。若差距较大考虑删掉此变量。
9、建模,观察系数是否为负数,若有则删掉此变量重新建模。
10、评分卡
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律