期末大作业
https://www.cnblogs.com/lyx092/p/14856047.html 05 RDD练习:词频统计,学习课程分数 缺交原因:忘了
https://www.cnblogs.com/lyx092/p/14856038.html 07 Spark RDD编程 综合实例 英文词频统计 缺交原因:忘了
https://www.cnblogs.com/lyx092/p/14856029.html 06 Spark SQL 及其DataFrame的基本操作 缺交原因:忘了
https://www.cnblogs.com/lyx092/p/14856027.html 09 Spark 连接mysql数据库 缺交原因:忘了
大作业:
1.选择使用什么数据,有哪些字段,多大数据量。
数据:中国疫情数据
字段:省份、确诊人数、死亡人数、治愈人数、新增人数
2.准备分析哪些问题,可视化方式?(8个以上)
(1)中国现有感染人数情况: 地图
(2) 中国现有感染人数情况: 柱状图
(3)北上广深现有感染人数情况:柱状图
(4)中国疫情情况:柱状图
(5)日新增人数前五的省份:柱状图
(6)日新增感染人数前八个的省份:散点图
(7)所有省份词云:词云
(8)现有感染人数前八个的省份:柱状图
3.当前进展。
有了数据表