MapReduce分区数据倾斜

什么是数据倾斜?

数据不可避免的出现离群值,并导致数据倾斜,数据倾斜会显著的拖慢MR的执行速度

常见数据倾斜有以下几类

1.数据频率倾斜   某一个区域的数据量要远远大于其他区域

2.数据大小倾斜  一部分记录的大小远远大于平均值

解决数据倾斜的常用方法

 

 

posted @ 2019-12-05 11:12  一只竹节虫  阅读(288)  评论(0编辑  收藏  举报