Kaggle——competition1 Titanic
今天第一次跟着别人的Notebook顺着做了一下kaggle里面的入门比赛:预测泰坦尼克溺亡(虽然分数只有0.77...)
发现很大一部分工作在于数据清洗这块,这一过程中也是认识到了很多新东西,现在大概列一下:
- 先将可能造成data leakage,或者一看就没啥关系的的相关列drop
- 分categories和numerical类型处理missing value
- 对非参数类型,如‘Sex’,进行卡方检验,判断相关程度卡方检验(Chi-Squared Test) - 知乎 (zhihu.com)
- 对数值类型,进行方差分析:Anova,这两步相当于在进行特征的选取工作
- 将训练集split,分别用logistics,knn,决策树,随机森林去预测
- 对于小数据的,在sklearn中的modelselection有一个GridSearchCv,就是线性扫描一遍,选取最佳的参数
- 其他的几个小tips:归一化MaxMinscale,pandas的一种onehotencode:pd.get_dummy
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律