Kaggle——competition1 Titanic

今天第一次跟着别人的Notebook顺着做了一下kaggle里面的入门比赛:预测泰坦尼克溺亡(虽然分数只有0.77...)

发现很大一部分工作在于数据清洗这块,这一过程中也是认识到了很多新东西,现在大概列一下:

  1. 先将可能造成data leakage,或者一看就没啥关系的的相关列drop
  2. 分categories和numerical类型处理missing value
  3. 对非参数类型,如‘Sex’,进行卡方检验,判断相关程度卡方检验(Chi-Squared Test) - 知乎 (zhihu.com)
  4. 对数值类型,进行方差分析:Anova,这两步相当于在进行特征的选取工作
  5. 将训练集split,分别用logistics,knn,决策树,随机森林去预测
  6. 对于小数据的,在sklearn中的modelselection有一个GridSearchCv,就是线性扫描一遍,选取最佳的参数
  7. 其他的几个小tips:归一化MaxMinscalepandas的一种onehotencodepd.get_dummy
posted @ 2022-12-24 15:56  孙bob  阅读(48)  评论(0)    收藏  举报