鱼佬视频学习贴
问题建模
- 理解赛题要去做什么?主要的过程还是在于特征工程,能否将这些信息转化为你的构造特征?
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219170533371-235692381.png)
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219170847507-1954396440.png)
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219170917158-1554423412.png)
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219170937562-273295128.png)
数据探索分析
这里的K折交叉验证指的是历史信息的分布会不会发生变化,但如果分布随着时间发生变化,如何避免时间穿越问题?这将怎么去做?
- 用距离测试集比较近的数据进行验证,
- 如何进行EDA:
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171025860-1916722030.png)
构建特征:按照特征之间的相关性进行筛选特征;
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171112673-1064402967.png)
特征工程
什么叫做时间穿越?怎么去检验?
数据的不平稳怎么去做?数据采样,数据扩充。
每天都会出现新的信息,怎么去处理?在训练集构建特征,怎么去覆盖历史没有的信息,未来有新字段的情况,这是一种冷启动的问题。
- 数据预处理,结合业务去处理,
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171235209-520064121.png)
特征提取:
目标编码可能造成时间穿越,一般结合交叉验证去处理。
偏好怎么解释:用户在所有品类购买的次数为100次,在A品类购买10次,所以对A的偏好是0.1。
行交叉怎么说?
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171258556-608623109.png)
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171324281-1828024503.png)
为什么这样提取特征会不一样?这样提取的特征可以与时间相关,说明不同时间段的分布不一样,这样可能导致label的分布不一样。
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171402174-793290829.png)
一阶差分可以反映出增长趋势,
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171504194-1588903337.png)
一个电影有多个特征,这些怎么处理,首先 One-hot
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171534711-844082195.png)
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171553285-1266679195.png)
特征选择:
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171621776-2082464236.png)
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171643669-1050430744.png)
必备模型
数据挖掘需要掌握的几个模型 !
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171713670-823061335.png)
如何让模型融合更叫有效:
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171735989-550967322.png)
很重要的几点
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171837490-1100708014.png)
![](https://img2020.cnblogs.com/blog/2355125/202112/2355125-20211219171901470-1117937076.png)
按照类型进行筛选特征,比如一个特征组合。Stacking要掌握;
特征选择:重要性进行打分,
树模型和深度模型都要搞,
深度学习:DNN ,有时序加入LSTM, GRU等
Attention机制:做特征交叉组合,AutoInt; 其中Transform也用到了Attention,
深度模型和树模型怎么结合在一起,将深度模型的输出进行Embedding作为树模型的输入,例如Biying。