2019 年 7月 25 日随笔档案 - lillcol

2019年7月25日

摘要：什么是数据倾斜？ Spark 的计算抽象如下数据倾斜指的是：并行处理的数据集中，某一部分（如 Spark 或 Kafka 的一个 Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。如果数据倾斜不能解决，其他的优化手段再逆天都白搭，如同短板效应，任务完成阅读全文

posted @ 2019-07-25 18:51 lillcol 阅读(830) 评论(0) 推荐(0) 编辑

lillcol

公告