数据集:美新冠数据集

字段: date      county    state       cases      deaths

数据量:158981

 

准备分析哪些问题?

1) 统计美国截止每日的累计确诊人数和累计死亡人数。

2) 统计美国每日的新增确诊人数和新增死亡人数。

3) 统计截止5.18日,美国各州的累计确诊人数和死亡人数。

4) 统计截止5.18日,美国确诊人数最多的十个州。

5) 统计截止5.18日,美国死亡人数最多的十个州。

6) 统计截止5.18日,美国确诊人数最少的十个州。

7) 统计截止5.18日,美国死亡人数最少的十个州。

8) 统计截止5.18日,全美和各州的病死率。

9) 统计截止5.19日,美国确诊人数最多的十个州。

 

 

 

 

第九次作业:spark连接mysql数据库: - 鸿宝爱DM - 博客园 (cnblogs.com)

第七次作业:07 从RDD创建DataFrame - 鸿宝爱DM - 博客园 (cnblogs.com)

第六次:06 spark SQL及其DataFrame的基本操作 - 鸿宝爱DM - 博客园 (cnblogs.com)