大数据应用技术课程实践--选题与实践方案
一、选题与意义
1.Hadoop平台应用
2.Kaggle分析数据项目
简要说明理由与意义。
选题:Kaggle分析数据项目--泰坦尼克号-从灾难中学习机器 https://www.kaggle.com/c/titanic 理由:电脑配置缘故,进行hadoop平台应用太费时间,故选择第二题, 由于期末其他大作业缘故,时间不太充裕,故选择泰坦尼克号-从灾难中学习机器这道题,以保证完成完整项目。 意义:分析在这次灾难中哪些人更可能存活。 |
二、实践方案
电脑上已经配置好完成该项目的具体环境,接下来在https://www.kaggle.com/competitions上进行相关的数据采集, 用anaconda和Pycharm分析,进行模型构建,对题目进行分析。 |
三、实践任务分解
①采集数据,导入数据,查看数据集信息 ②数据预处理:进行数据清洗与特征处理数据分类 ③建立训练测试集与测试数据集,选择机器学习算法训练模型 ④模型评估 ⑤提交结果到kaggle ⑥写实验报告 |
四、实践计划
按任务分解撰写计划表,每天按计划表开展工作。
第天根据实际情况更新计划表,有必要时调整。
任务 | 6.23 | 6.24 | 6.25 | 6.26 | 6.27 | 6.28 | 6.29 | 6.30 | 7.1 |
采集数据,导入数据,查看数据集信息 | ✔ | ||||||||
数据预处理 | ✔ | ✔ | |||||||
建立训练测试集与测试数据集,选择机器学习算法训练模型 | ✔ | ✔ | ✔ | ||||||
模型评估 | ✔ | ✔ | |||||||
提交结果到kaggle | ✔ | ||||||||
写实验报告 | ✔ |
1.
- 网站用户购物行为分析
- 官网:http://dblab.xmu.edu.cn/post/7499/
- 淘宝双11数据分析与预测
- 官网:http://dblab.xmu.edu.cn/post/8116/
- 电信用户行为分析
- http://dblab.xmu.edu.cn/post/useranalysis/
大数据平台安装软件:
链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m
虚拟机镜像文件:
链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw
提取码:q0lt
2.
https://www.kaggle.com/competitions
说明:
- 个人项目,不要求组队,确实需要组队的说明理由。
- 边操作边记录;
- 每天完成当天文档;
- 最后综合成课程实践报告。