hive sql 优化

sql优化：

----------------------------------------------------------------

数据倾斜的处理方式：

Q: 活动数据和对应的维表进行关联，其中某个活动特别的大。

1) 给关联健加入一个随机的 1-10的值

2）将维度表的关联健，每个加上 1-10的值，将维度表扩充十倍。

3）然后将2个表进行join，从而来消除数据倾斜。

尽量不使用count distinct

1）通过select子查询优化

2）通过建立临时表

用in 来代替join

select id,name from tb1 where id in(select id from tb2); in 要比join 快

Map join ：

连接发生在map阶段，适用于小表连接大表

大表的数据从文件中读取

小表的数据存放在内存中（hive中已经自动进行了优化，自动判断小表，然后进行缓存）

1. 将大表放后头

3. 尽量尽早地过滤数据

4.尽量避免一个SQL包含复杂逻辑，可以使用中间表来完成复杂的逻辑

5.避免使用select * ，不用列不要放进去

6.过滤不使用的数据分区

2. 使用相同的连接键

配置优化----------------------------------------------------------------------

设置map 和reduce 为合理的数量

合并小文件

数据倾斜发生在shuffle阶段，如：

第一，做好列裁剪和filter操作，以达到两表做join的时候，数据量相对变小的效果

第二，

大小表join

工作原理是在Map端把小表加载到内存中，然后读取大表，和内存中的小表完成连接操作

表Join大表：

把空值的key变成一个字符串加上随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终结果

posted @ 2019-09-29 18:08 1101011 阅读(484) 评论(0) 编辑收藏举报

刷新页面返回顶部

1101011