欢迎来到RankFan的Blogs

扩大
缩小

鱼佬视频学习贴

来源:【AIWIN - 数据挖掘赛事常见提分攻略总结


问题建模

  • 理解赛题要去做什么?主要的过程还是在于特征工程,能否将这些信息转化为你的构造特征?

数据探索分析

这里的K折交叉验证指的是历史信息的分布会不会发生变化,但如果分布随着时间发生变化,如何避免时间穿越问题?这将怎么去做?

  • 用距离测试集比较近的数据进行验证,
  • 如何进行EDA:

构建特征:按照特征之间的相关性进行筛选特征;

特征工程

什么叫做时间穿越?怎么去检验?
数据的不平稳怎么去做?数据采样,数据扩充。
每天都会出现新的信息,怎么去处理?在训练集构建特征,怎么去覆盖历史没有的信息,未来有新字段的情况,这是一种冷启动的问题。

  • 数据预处理,结合业务去处理,

特征提取:
目标编码可能造成时间穿越,一般结合交叉验证去处理。
偏好怎么解释:用户在所有品类购买的次数为100次,在A品类购买10次,所以对A的偏好是0.1。
行交叉怎么说?

为什么这样提取特征会不一样?这样提取的特征可以与时间相关,说明不同时间段的分布不一样,这样可能导致label的分布不一样。

一阶差分可以反映出增长趋势,

一个电影有多个特征,这些怎么处理,首先 One-hot

特征选择:

必备模型

数据挖掘需要掌握的几个模型 !

如何让模型融合更叫有效:

很重要的几点


按照类型进行筛选特征,比如一个特征组合。Stacking要掌握;
特征选择:重要性进行打分,
树模型和深度模型都要搞,
深度学习:DNN ,有时序加入LSTM, GRU等
Attention机制:做特征交叉组合,AutoInt; 其中Transform也用到了Attention,
深度模型和树模型怎么结合在一起,将深度模型的输出进行Embedding作为树模型的输入,例如Biying。

posted on 2021-12-19 17:06  RankFan  阅读(38)  评论(0编辑  收藏  举报

导航