kaggle入门项目：Titanic存亡预测（一）比赛简介

自从入了数据挖掘的坑，就在不停的看视频刷书，但是总觉得实在太过抽象，在结束了coursera上Andrew Ng 教授的机器学习课程还有刷完一整本集体智慧编程后更加迷茫了，所以需要一个实践项目来扎实之前所学的知识。于是就参考kaggle上的starter项目Titanic，并选取了kernel中的一篇较为祥尽的指南，从头到尾实现了一遍。因为kaggle入门赛相关方面的参考和指导非常少，因此写博给需要学习的同学做个小参考，也记录下数据挖掘的学习历程。新手上路，如果博文有误或缺失，还希望各位大神指正。

研究机器学习，AI，算法，计算机视觉，数据挖掘等相关领域，那么没有什么是比打比赛更能证明自己的实力了。国内的竞赛平台有名的就是阿里的天池，腾讯、京东也有类似的比赛，但是如果新手入门还是推荐kaggle，kaggle上的每个比赛都有kernel，很多工程师会发布比赛相关的指导和解题方法，唯一需要的就是一点点英语阅读能力。

Tatinic作为kaggle保留的入门项目一直都是Datascience的入门首选，在这个比赛中我选择了A Data Science Framework: To Achieve 99% Accuracy的这篇kernel从头到尾复现了一遍，结合notebook中的指南，学到了很多数据分析与数据挖掘的基本技能，像是可视化的matplotlib与seaborn的数据可视化实现，数据的清理与one-hot编码，特征工程等。

Titanic数据集是源自1912年泰坦尼克号沉没事故的存亡情况统计，1500多人死于这场灾难。我们的训练数据集提供了共891名乘客的具体信息，包括姓名、性别、船舱等级、船票价格等，最重要的是survived信息：0/1代表着死亡与幸存，我们的任务就是从这891名乘客信息中寻找特征，确定模型，用以预测测试数据集中其他418名乘客的幸存/死亡情况。

这篇kernel是数据分析的入门教程，围绕问题分析、数据处理、建立模型、选择算法，参数、模型融合等很多数据科学的基本点解释，我将会持续更新这篇kernel的学习心得与问题复现，希望帮助到数据挖掘的同学和kaggle入门者（当然我也是啦）

posted @ 2018-04-25 10:24 fancyU 阅读(835) 评论(0) 编辑收藏举报

刷新页面返回顶部

fancyU

kaggle入门项目：Titanic存亡预测 （一）比赛简介

公告

kaggle入门项目：Titanic存亡预测（一）比赛简介