前言:数据倾斜大多数是由于数据本身的分布不均匀。故而需要我们使用诸如列裁剪、Mapjoin、GroupBy等方法进行处理。数据倾斜表现:1、任务日志进度长度为99%,在日志监控进度条显示只有几个reduce进度一直没有完成。 2、某一reduce处理时长>平均处理时长 3、job数过多 数据倾斜原因 Read More
posted @ 2021-04-29 17:18 欣欣姐 Views(87) Comments(0) Diggs(0) Edit