补:
https://www.cnblogs.com/cmy523/p/14860662.html:
06 SPARK SQL 及其DATAFRAME的基本操作
原因:忘了交了
一、.选择使用什么数据,有哪些字段,多大数据量。
us-counties美新冠数据;字段有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths);
二、准备分析哪些问题?(8个以上)
1、统计美国某个县每天的确诊病例和死亡病例
2、统计美国确诊人数最多的那个县
3、统计截止5.19日,美国各州的累计确诊人数和死亡人数。首先筛选出5.19日的数据,然后以state作为分组字段,对cases和deaths字段进行汇总统计。
4、统计截止至5.19日,美国确诊人数最多的前十个州(对3的结果DataFrame注册临时表,然后按确诊人数降序排列,并取前10个州)
5、统计截止至5.19日,美国死亡人数最少的前十个州
6、统计美国死亡人数等于0的州
7、统计美国各州的病死率
8、统计美国确诊人数最少的那个州
三、当前进展
进行数据分析,通过问题查询数据