10 期末大作业
大作业:
1.选择使用什么数据,有哪些字段,多大数据量。
数据:2020年1月21日到2020年5月19日的美国疫情数据
字段:
date 日期
county 市/县
state 州
cases 确诊人数
deaths 死亡人数
数据量:158981条数据
2.准备分析哪些问题?(8个以上)
准备分析的问题为:
1.统计截止 5.19 日,美国每日的累计确诊人数和累计死亡人数
2.统计截止 5.19 日,美国每日的新增确诊人数和新增死亡人数
3.统计截止 5.19 日,美国每月的累计确诊人数和死亡人数
4.统计截止 5.19 日,美国各州的累计确诊人数和死亡人数
5.统计截止 5.19 日,美国各县的累计确诊人数和死亡人数
6.统计截止 5.19 日,美国确诊人数最多的十个州
7.统计截止 5.19 日,美国死亡人数最多的十个州
8.统计截止 5.19 日,美国确诊人数最少的十个州
9.统计截止 5.19 日,美国死亡人数最少的十个州
10.统计截止 5.19 日,全美和各州的病死率。病死率=死亡数/确诊数
11.统计截止 5.19 日,美国任意州的每个县的累计确诊人数和死亡人数
12.统计截止 5.19 日,美国各州确诊人数和死亡人数的全国占比
3.当前进展。
数据集的预处理。