hive null 值倾斜数据处理方法

on case when a.user_id is null then concat(‘jd-hive’,rand() ) else a.user_id end = b.user_id;

如果两个表join 时 关联键 有众多null  值  ,null值数据会被分发到某一个节点 ,会导致数据倾斜  导致process 运行缓慢 或是因为内存溢出等原因被系统识别kill

posted @ 2018-10-16 16:05  yuerspring  阅读(526)  评论(0编辑  收藏  举报