随笔分类 -  hive

摘要:common join 普通join,性能较差,存在Shuffle map join 适用情况:大表join小表时,做不等值join 原理:将小表数据广播到各个节点,存储在内存中,在map阶段直接join,不需要进行reduce,没有了shuffle 优点:性能大大提高 限制:小表需要在内存中放的下 阅读全文
posted @ 2021-08-31 16:40 梦里繁花 阅读(692) 评论(0) 推荐(0) 编辑
摘要:COALESCE (expression_1, expression_2, ...,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。 如果需要对某列为空时赋予默认值,常使用COALESCE(a,10) a为列名,10为默 阅读全文
posted @ 2019-10-23 09:40 梦里繁花 阅读(3395) 评论(0) 推荐(0) 编辑
摘要:hivesql中max,min函数不能作用于多列,因此在有上下门限区间限制时多用公式直接计算。 max(x,y)=(x+y+ABS(x-y))/2 min(x,y)=(x+y-ABS(x-y))/2 若x<a<y x,y为上下门限,a<x则取x,a>y则取y,否则取a min(max(a,x),y) 阅读全文
posted @ 2019-10-21 10:48 梦里繁花 阅读(1133) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示