大数据应用技术课程实践--选题与实践方案
一、选题与意义
1.Hadoop平台应用
2.Kaggle分析数据项目
简要说明理由与意义。
选题:1.Hadoop平台应用
- 淘宝双11数据分析与预测
- 官网:http://dblab.xmu.edu.cn/post/8116/
理由:对于使用hadoop实验比较熟悉一点
二、实践方案
简要说明理由。
步骤零:实验环境准备 | 查看实验指南 |
步骤一:本地数据集上传到数据仓库Hive | 查看实验指南 |
步骤二:Hive数据分析 | 查看实验指南 |
步骤三:将数据从Hive导入到MySQL | 查看实验指南 |
步骤四:利用Spark预测回头客 | 查看实验指南(Scala版) 查看实验指南(Python版) |
步骤五:利用ECharts进行数据可视化分析 | 查看实验指南 |
三、实践任务分解
根据所选的题目,明确实验步骤,分解任务到每天。
1. 安装Linux系统;
2. 安装Hadoop;
3. 安装MySQL;
4. 安装Hive;
5. 安装Sqoop;
6. 安装Spark;
7. 安装Eclipse;
8. 数据集预处理;
9.把文本文件的数据集导入到数据仓库Hive中;
10.对数据仓库Hive中的数据进行查询分析;
11.使用Sqoop将数据从Hive导入MySQL;
12.利用Eclipse搭建动态Web应用;
13.利用ECharts进行前端可视化分析;
14.利用Spark MLlib进行回头客行为预测;
四、实践计划
按任务分解撰写计划表,每天按计划表开展工作。
第天根据实际情况更新计划表,有必要时调整。
1.
- 网站用户购物行为分析
- 官网:http://dblab.xmu.edu.cn/post/7499/
- 淘宝双11数据分析与预测
- 官网:http://dblab.xmu.edu.cn/post/8116/
- 电信用户行为分析
- http://dblab.xmu.edu.cn/post/useranalysis/
大数据平台安装软件:
链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m
虚拟机镜像文件:
链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw
提取码:q0lt