常用api用法

    agg:groupdata对象的api,作用是在里面可以写多个聚合
    alias:column对象的api,可以针对一个列进行改名
    withcolumnrenamed:dataframe的api,可以对df中的列进行改名,一次改一个列 ,改多个列,可以链式调用

7.sparksql数据清洗api

    去重方法:drop duplication,其功能为:对df数据进行处理,如果重复数据多条,去第一条

8.总结

    dataframe在结构层面上由structfield组成列描述,由struvttype构造表描述。在数据层面上,column对象记录列数据,row对象记录含数据
    dataframe可以从rdd转换、pandas df转换、读取文件、读取jdbc等方法构建
    spark.read.format()和df.write.format()是dataframe读取和写出的统一化标准api
    sparksql默认在shuffle阶段200个分区,可以修改参数获得更好的性能
    drop duplication可以去冲、dropna可以删除缺失值、fillna可以填充缺失值