hive大小表join性能优化

当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。

大小表join时,将小表放在前面,会将小表进行缓存。

mapjoin将小表放入内存,在map端和大表逐一匹配,省去reduce操作

posted @ 2019-09-03 16:59  hulifang  阅读(2355)  评论(0编辑  收藏  举报