大数据应用技术课程实践--选题与实践方案

一、选题与意义

选题:Kaggle分析数据项目

Kaggle分析数据项目--泰坦尼克号-从灾难中学习

简要说明理由与意义。

可以让我们熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用;

了解大数据处理的基本流程;

熟悉数据预处理方法;

熟悉在不同类型数据库之间进行数据相互导入导出;

熟悉使用R语言进行可视化分析;

熟悉使用Elipse编写Java程序操作HBase数据库。

 

 

二、实践方案

在自己电脑上根据个人计划的内容分布展开,这样对整个任务的实施都有好处。也能分解压力。

三、实践任务分解

  1. 安装Linux操作系统
  2. 安装关系型数据库MySQL
  3. 安装大数据处理框架Hadoop
  4. 安装列族数据库HBase
  5. 安装数据仓库Hive
  6. 安装Sqoop
  7. 安装R
  8. 安装Eclipse
  9. 对文本文件形式的原始数据集进行预处理
  10. 把文本文件的数据集导入到数据仓库Hive中
  11. 对数据仓库Hive中的数据进行查询分析
  12. 使用Sqoop将数据从Hive导入MySQL
  13. 使用Sqoop将数据从MySQL导入HBase
  14. 使用HBase Java API把数据从本地导入到HBase中
  15. 使用R对MySQL中的数据进行可视化分析

四、实践计划

按任务分解撰写计划表,每天按计划表开展工作。

第天根据实际情况更新计划表,有必要时调整。

23号 完成步骤1/2

24号 完成步骤3/4

25号 完成步骤5/6

26号 完成步骤7/8

27号 完成步骤9/10

28号 完成步骤11

29号 完成步骤12

30号 完成步骤13

1号 完成步骤14

2号 完成步骤15

3号 答辩

 

1.

 

大数据平台安装软件:

链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A 
提取码:ao1m

虚拟机镜像文件:

链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
提取码:q0lt 

 

2.

https://www.kaggle.com/competitions

 

说明:

  • 个人项目,不要求组队,确实需要组队的说明理由。
  • 边操作边记录;
  • 每天完成当天文档;
  • 最后综合成课程实践报告。
  • 参考链接:http://dblab.xmu.edu.cn/post/7499/
posted @ 2020-06-23 17:44  162  阅读(225)  评论(0编辑  收藏  举报