10 期末大作业
https://www.cnblogs.com/ch1226/p/14854162.html ,04 RDD编程练习 写在博客里但是忘记提交了
https://www.cnblogs.com/ch1226/p/14854167.html , 05 RDD练习:词频统计,学习课程分数 写在博客里但是忘记提交了
https://www.cnblogs.com/ch1226/p/14854168.html ,07 从RDD创建DataFrame 忘记做了
https://www.cnblogs.com/ch1226/p/14854149.html ,09 spark连接mysql数据库 晚上加班学习python导致错过提交时
大作业:
1.选择使用什么数据,有哪些字段,多大数据量。
数据:美国疫情数据
字段:洲名、确诊人数、死亡人数、治愈人数、新增人数、日期
2.准备分析哪些问题,可视化方式?(8个以上)
(1)美国现有感染人数情况, 地图
(2) 美国现有感染人数情况, 柱状图
(3)主要城市现有感染人数情况,柱状图
(4)美国疫情情况,饼图
(5)日新增人数前五的洲,漏斗图
(6)日新增感染人数前八个的洲,散点图
(7)所有洲的词云,词云,
(8)现有感染人数前八个的洲, 象型图
3.当前进展。
正在获取数据