摘要: Hive在分布式运行的时候最害怕的是数据倾斜,这是由于分布式系统的特性决定的,因为分布式系统之所以很快是由于作业平均分配给了不同的节点,不同节点同心协力,从而达到更快处理完作业的目的。 Hive中数据倾斜的原因: 数据在分布式节点上分部不均衡 join时某些key可能特别大(常见null值) gro 阅读全文
posted @ 2019-11-25 11:25 海贼王一样的男人 阅读(399) 评论(0) 推荐(0) 编辑