RICH-ATONE

2022年5月10日 #

Hive:如何解决NULL值引发的数据倾斜

摘要: 实际业务中有些大量的null值或者一些无意义的数据参与到计算作业中,表中有大量的null值,如果表之间进行join操作,就会有shuffle产生,这样所有的null值都会被分配到一个reduce中,必然产生数据倾斜。 疑问:NULL值和需要匹配的字段根本就匹配不上,为什么会进入到同一个reduce? 阅读全文

posted @ 2022-05-10 16:26 RICH-ATONE 阅读(1135) 评论(0) 推荐(0) 编辑

导航