每日总结

今日学习了spark的数据清洗ui

#数据去重
df.dropDuplicates().show()

#带参数去重
df.dropDuplicates(['age','job']).show()
#去除空值
df.dropna().show()
#最少满足三个有效列
df.dropna(thresh=3).show()
#满足name和age有效
df.dropna(thresh=2,subset=['name','age']).show()
#填充
df.fillna("loss").show()

df.fillna("loss",subset=['job']).show()
#指定填充
df.fillna({"name":"weizhi","age":2,"job":"daw"})
posted @ 2023-09-24 21:44  一个小虎牙  阅读(3)  评论(0编辑  收藏  举报