2022 年 9月 1 日随笔档案 - 江东邮差

2022年9月1日

摘要： 1.问题原表数据1400MB左右； spark sql查询后对dataframe使用reparation，再写入结果表；结果表有12个800多MB的parquet文件，严重膨胀。 2.结论先说明两个函数区别： repartition ：把record完全打乱最终随机插入到10个文件有Shu 阅读全文

posted @ 2022-09-01 15:18 江东邮差阅读(587) 评论(0) 推荐(0) 编辑

江东邮差

——时间是宝贵的

公告