每日总结

今日学习了spark的数据清洗ui

#数据去重
df.dropDuplicates().show()

#带参数去重
df.dropDuplicates(['age','job']).show()
#去除空值
df.dropna().show()
#最少满足三个有效列
df.dropna(thresh=3).show()
#满足name和age有效
df.dropna(thresh=2,subset=['name','age']).show()
#填充
df.fillna("loss").show()

df.fillna("loss",subset=['job']).show()
#指定填充
df.fillna({"name":"weizhi","age":2,"job":"daw"})
posted @   一个小虎牙  阅读(3)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
历史上的今天:
2022-09-24 程序员的修炼之道:从小工到专家 读书笔记二
点击右上角即可分享
微信分享提示