对数据分析的一点思考
1、机器内存不足的解决方案:EasyEnsemble的方法,即多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果
2、统计历史点击率时的平滑技巧 https://cloud.tencent.com/developer/article/1005257
3、python 数据可视化:https://www.kaggle.com/benhamner/python-data-visualizations
4、