摘要: 大表和小表关联查询可以采用mapjoin优化查询速度。那什么是mapjoin呢?理解MapJoin之前先介绍另一种Join方式,CommonJoin。我们知道Hive编写SQL语句,Hive会将SQL解析成MapReduce任务。对于一个简单的关联查询,CommonJoin任务设计Map阶段和Red 阅读全文
posted @ 2019-12-11 20:38 Lucas_zhao 阅读(4617) 评论(0) 推荐(0) 编辑
摘要: 普通的聚合函数聚合的行集是组,开窗函数聚合的行集是窗口。因此,普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。简单理解,就是对查询的结果多出一列,这一列可以是聚合值,也可以是排序值。 开窗函数一般分为两类,聚合开窗函数和排序开窗函数。OVER():指定分 阅读全文
posted @ 2019-12-11 18:03 Lucas_zhao 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 行转列是指多行数据转换为一个列的字段。 列转行是值某一个字段转换成多行显示。 行转列 Hive行转列用到的函数:concat(str1,str2,...) --字段或字符串拼接concat_ws(sep, str1,str2) --以分隔符拼接每个字符串collect_set(col) --将某字段 阅读全文
posted @ 2019-12-11 16:11 Lucas_zhao 阅读(15940) 评论(1) 推荐(0) 编辑