随笔分类 - kaggle
摘要:1、机器内存不足的解决方案:EasyEnsemble的方法,即多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果 2、统计历史点击率时的平滑技巧 https://cloud.tencent.com/develope
阅读全文
摘要:read_csv函数 常见参数: header: header=None 指明原始文件数据没有列索引,这样read_csv会自动加上列索引,除非你给定列索引的名字。 header=0 表示文件第0行(即第一行,索引从0开始)为列索引,这样加names会替换原来的列索引。如果没有传入names参数,默
阅读全文
摘要:https://ericfu.me/10-minutes-to-pandas/ 对象: Series 是一个值的序列,它只有一个列,以及索引(默认整数索引)。DataFrame 是由 Series 组成的 输出: Series属性: df = pd.DataFrame({ 'col1' : ['A'
阅读全文
摘要:https://yq.aliyun.com/articles/293596 https://www.kaggle.com/c/outbrain-click-prediction https://www.kaggle.com/anokas/outbrain-eda 用户个性化点击率预估 基本场景: d
阅读全文
摘要:1、kaggle数据分析经验: https://medium.com/unstructured/how-feature-engineering-can-help-you-do-well-in-a-kaggle-competition-part-i-9cc9a883514d https://yq.al
阅读全文