贷款违约预测-赛题理解&基线预测 天池 鱼佬直播 PPT记录

贷款违约预测-赛题理解&基线预测 天池鱼佬直播

原网址: https://tianchi.aliyun.com/course/video?liveId=41203

下载地址: https://tianchi-media.oss-cn-beijing.aliyuncs.com/online-video/41203/2020-09-16 21-28-51.mp4

内容大纲

  1. 初识金融风控之贷款违约预测
  2. 竞赛中的几个主要模块
  3. 赛题理解部分
  4. 基线方案(baseline)
  5. 更多尝试方向——持续优化

1. 初识金融风控之贷款违约预测

金融风控

  1. 行业的角度
    1. 消费金融
    2. 供应链金融
    3. 信用借贷
    4. 大数据征信
    5. 融资租赁
  2. 资金的角度
    1. 还款能力
    2. 还款意愿
    3. 反欺诈反作弊
    4. 薅羊毛
    5. 平台安全

2. 竞赛中的几个主要模块

3. 赛题理解部分

3.1 赛题理解 业务

3.1 赛题理解 数据

赛题数据

  1. 每种数据集之间的关系
  2. 数据中缺失值情况
  3. 类别特征和数值特征基本分布(类别数、均值、方差、最值等)

评价指标

  1. 分类指标
    1. 精确率、召回率、AUC、logloss
  2. 回归指标
    1. MAE、MAPE、RMSE等
3.2 问题建模 线下验证

时序验证 (按时间段切割)

k折交叉验证

3.3 EDA 探索性数据分析

了解数据

  1. 数据是否大小格式(进行处理)
  2. 数据是否干净(进行处理)
  3. 数据格式是否正确 (进行处理)

为建模做准备

3.4 异常点处理
  1. 当做缺失值进行处理

  2. 删除离群点所在样本

  3. 处理错误值

  4. 错误标签

  5. 标签和评估指标不一致

    1. 标签log1p化,再用mse进行优化学习
3.5 类型也正和数值特征

3.6 时间特征的处理

  1. 具体举例子

  1. 特征选择

  1. 举例科大迅雷AI营销大赛

  1. 必备模型

    1. XGBoost LightGBM

    2. 对特征处理要求比较低

    3. 对类别和连续特征优化

    4. 缺失值不需要填充

    1. 模型融合

  1. 赛题理解部分

    1. AUC评价指标

    2. log-loss

    3. F1-score

      1. 可以自己调整,适当提升分数

4. 基线方案(baseline) github地址

5. 更多尝试方向——持续优化


posted @ 2020-09-20 11:42  山枫叶纷飞  阅读(645)  评论(0编辑  收藏  举报