Kaggle——competition1 Titanic

今天第一次跟着别人的Notebook顺着做了一下kaggle里面的入门比赛:预测泰坦尼克溺亡(虽然分数只有0.77...)

发现很大一部分工作在于数据清洗这块,这一过程中也是认识到了很多新东西,现在大概列一下:

  1. 先将可能造成data leakage,或者一看就没啥关系的的相关列drop
  2. 分categories和numerical类型处理missing value
  3. 对非参数类型,如‘Sex’,进行卡方检验,判断相关程度卡方检验(Chi-Squared Test) - 知乎 (zhihu.com)
  4. 对数值类型,进行方差分析:Anova,这两步相当于在进行特征的选取工作
  5. 将训练集split,分别用logistics,knn,决策树,随机森林去预测
  6. 对于小数据的,在sklearn中的modelselection有一个GridSearchCv,就是线性扫描一遍,选取最佳的参数
  7. 其他的几个小tips:归一化MaxMinscalepandas的一种onehotencodepd.get_dummy
posted @   孙bob  阅读(33)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示