量化投资学习笔记25——朴素贝叶斯:实操,泰坦尼克号乘客生还机会预测
参考:
https://blog.csdn.net/qian99/article/details/77916806
数据载入和清洗跟前面文章一样的。
进行朴素贝叶斯模型建模
features = ['Pclass', 'Sex', 'Age', 'Family', 'Embarked', 'Cabin']
model = MultinomialNB(alpha = 2.0)
model.fit(train_data[features], train_data["Survived"])
print("模型评分:", model.score(train_data[features], train_data["Survived"]))
result = model.predict(test_data[features])
# 输出到文件
output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': result})
output.to_csv("submit05.csv", index = False)
print("结果输出完毕!")
模型评分: 0.7755331088664422
提交一下看看。
结果还不如之前的逻辑回归,支持向量机呢!尝试再改进一下看看,把年龄按15,55为界划分为三个类型。
结果:
模型评分: 0.7721661054994389
还不如没改呢!也提交一下看看。
结果评分更低了,所以机器学习除了算法选择,特征的选择,处理也很重要。
本文代码
https://github.com/zwdnet/MyQuant/blob/master/titanic/submit04.py
我发文章的四个地方,欢迎大家在朋友圈等地方分享,欢迎点“在看”。
我的个人博客地址:https://zwdnet.github.io
我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
我的博客园博客地址: https://www.cnblogs.com/zwdnet/
我的微信个人订阅号:赵瑜敏的口腔医学学习园地