大数据应用技术课程实践--选题与实践方案

一、选题与意义

1.Hadoop平台应用

2.Kaggle分析数据项目

简要说明理由与意义。

选题:Kaggle分析数据项目--泰坦尼克号-从灾难中学习机器

https://www.kaggle.com/c/titanic

理由:电脑配置缘故,进行hadoop平台应用太费时间,故选择第二题,

   由于期末其他大作业缘故,时间不太充裕,故选择泰坦尼克号-从灾难中学习机器这道题,以保证完成完整项目。

意义:分析在这次灾难中哪些人更可能存活。

 

 

 

 

 

 

二、实践方案

电脑上已经配置好完成该项目的具体环境,接下来在https://www.kaggle.com/competitions上进行相关的数据采集,

用anaconda和Pycharm分析,进行模型构建,对题目进行分析。

 

 

 

三、实践任务分解

①采集数据,导入数据,查看数据集信息

②数据预处理:进行数据清洗与特征处理数据分类

③建立训练测试集与测试数据集,选择机器学习算法训练模型

④模型评估

⑤提交结果到kaggle

⑥写实验报告

 

 

 

 

 

 

 

四、实践计划

按任务分解撰写计划表,每天按计划表开展工作。

第天根据实际情况更新计划表,有必要时调整。

任务 6.23 6.24 6.25 6.26 6.27 6.28 6.29 6.30 7.1
采集数据,导入数据,查看数据集信息                
数据预处理              
建立训练测试集与测试数据集,选择机器学习算法训练模型            
模型评估              
提交结果到kaggle                
写实验报告                

 

 

 

 

 

 

 

 

1.

 

大数据平台安装软件:

链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m

虚拟机镜像文件:

链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
提取码:q0lt

 

2.

https://www.kaggle.com/competitions

 

说明:

    • 个人项目,不要求组队,确实需要组队的说明理由。
    • 边操作边记录;
    • 每天完成当天文档;
    • 最后综合成课程实践报告。

posted on 2020-06-23 17:50  321木头人123  阅读(175)  评论(0编辑  收藏  举报

导航