欢迎来到RankFan的Blogs

扩大
缩小

2021新网银行比赛“超级传播者”总结

队员:Guass; RankFan; Alsence; 倾兰

赛题理解

本次比赛属于“超级传播者”的识别问题,即二分类(0-1)问题,所使用的的衡量标准是AUC。首先,我们要理解什么是“超级传播者”?
如何有效地识别“超级传播者”。

特征工程

数据包括两部分,一部分是用户画像表,两一部分是用户活跃表,训练集是有标签的数据,测试集无标签。
A榜训练集数据范围从2020年8月-2021年6月,A榜测试集数据为2021年7月。
B榜训练集数据范围从2020年8月-2021年6月,A榜测试集数据为2021年8月。所以切换到B榜之后,没有7月份数据的Label。

首先,观察变量是离散的还是连续的,对离散变量和连续变量分别进行处理

  • 基础特征:省份;年龄,脱敏信息:根据身份证信息,

  • 统计特征: 进行groupby,做min、max、mean、count、nuique等特征

  • Lag and rolling 特征:

  • 交叉特征:根据Baseline重要性特征得分,做相关的特征交叉:连在一起或者加除。

  • 其他特征:Target Encoding,如何处理Target所造成的的过拟合现象,做关于离散特征的强编码特征:

Baseline

我们团队用的是LightGB模型作为Baseline

模型

树模型:LightGB、XgBoost、CatBoost
神经网络:DAE、TableNet

模型融合:Stacking 或者 平均法

posted on 2021-12-20 13:56  RankFan  阅读(115)  评论(0编辑  收藏  举报

导航