07 2022 档案

摘要:写在开头,关注公众号:Python风控模型与数据分析、回复 风控实战1 ,即可获取本文数据集及完整代码,以及更多理论知识与代码分享 目录 1、导包 2、数据读取 3、统计分析 3.1 样本分布 3.2 特征缺失统计 3.3 数据类型分布 3.4 数据清洗 3.5 类别型变量单变量分析 3.6 特征衍 阅读全文
posted @ 2022-07-29 16:23 ds风控 阅读(19) 评论(0) 推荐(0) 编辑
摘要:一、模型训练过程 贪心优化算法。多颗决策树串行训练,第一棵树拟合训练目标、第二颗树拟合前面的残差、第三棵树拟合前两棵树留下的残差。 1、残差来源: (1)第k颗树训练时,行采样+列采样(即仅有部分样本、部分特征进入树中进行训练)进入树,决策树按照最大信息增益原则选择分裂特征、分裂点进行分裂; (2) 阅读全文
posted @ 2022-07-19 09:49 ds风控 阅读(51) 评论(0) 推荐(0) 编辑
摘要:xgb作为常用的集成模型,不仅是当前工业落地最常用的模型之一、而且几乎是风控面试的必考点,从gbdt到xgboost,有一个重要的新增特性就是模型可自行处理缺失值,减少我们在预处理过程中的工作量、不需要再进行缺失填充,极大地简化了我们建模流程。 那么xgb在训练和预测时是如何处理缺失值的呢? 先来看 阅读全文
posted @ 2022-07-10 00:35 ds风控 阅读(82) 评论(0) 推荐(0) 编辑
摘要:目录 一 参数详解 二 实战 1 导包 2 数据读取 3 贷后y标签分布,逾期率20% 4 预处理 5 特征分布 6 特征分组 7 初始参数 8 catboost建模函数 9 初始模型 10 特征重要性 11 贝叶斯调参 划重点 原理部分看这里:Catboost原理详解_Python风控模型与数据分 阅读全文
posted @ 2022-07-04 16:29 ds风控 阅读(335) 评论(0) 推荐(0) 编辑