kaggle入门之Titanic生存预测
比赛说明
RMS泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。
造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。
在这个挑战中,我们要求您完成对哪些人可能存活的分析。特别是,我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。
目标
你的工作是预测一名乘客是否能够幸免于泰坦尼克号沉没。
对于测试集中的每个,您必须预测变量的0或1值。
提交文件格式
您应该提交一个csv文件,其中包含418个条目和一个标题行。如果您有额外的列(超出PassengerId和Survived)或行,您的提交将显示错误。
该文件应该有两列:
- PassengerId(按任意顺序排序)
- 幸存(包含你的二元预测:1为幸存,0为死者)
data概观
数据分为两组:
- 训练集(train.csv)
- 测试集(test.csv)
训练集应该用于构建您的机器学习模型。对于训练集,我们为每位乘客提供结果(也称为“基本事实”)。您的模型将基于乘客性别和班级等“功能”。您还可以使用特征工程来创建新功能。
应该使用测试集来查看模型在看不见的数据上的表现。对于测试装置,我们不为每位乘客提供基本事实。预测这些结果是你的职责。对于测试装置中的每位乘客,使用您训练过的模型来预测他们是否能够在泰坦尼克号沉没中幸存下来。
我们还包括gender_submission.csv,这是一组假设所有且仅有女性乘客生存的预测,作为提交文件应该是什么样子的示例。
数据字典
变量 | 定义 | 键 |
---|---|---|
生存 | 生存 | 0 =否,1 =是 |
pclass | 票务舱 | 1 = 1,2 = 2,3 = 3 |
性别 | 性别 | |
年龄 | 年龄多年 | |
sibsp | 泰坦尼克号上的兄弟姐妹/配偶# | |
胹 | 泰坦尼克号上的父母/孩子们 | |
票 | 票号 | |
票价 | 乘客票价 | |
舱 | 小屋号码 | |
开始 | 登船港口 | C =瑟堡,Q =皇后镇,S =南安普敦 |
可变注释
pclass:社会经济地位的代理(SES)
1st = Upper
2nd = Middle
3rd = Lower
年龄较低:如果小于1,年龄是小数。如果估计年龄,是否为xx.5
sibsp:数据集定义这样的家庭关系......
兄弟姐妹=兄弟,姐妹,同父异母的弟弟,义妹
配偶=丈夫,妻子(包二奶和未婚夫被忽略)
烘干:将数据集定义这样的家庭关系......
父=母亲,父亲
儿童=女儿,儿子,继女,继子
有些孩子只带着保姆旅行,因此对他们来说parch = 0