上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 25 下一页
摘要: 1.函数说明 RANK(): 排序相同时会重复,总数不会变 DENSE_RANK(): 排序相同时会重复,总数会减少 ROW_NUMBER(): 会根据顺序计算 2.数据准备 name subject score 孙悟空 语文 87 孙悟空 数学 95 孙悟空 英语 68 大海 语文 94 大海 数 阅读全文
posted @ 2019-11-06 20:53 tunan96 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 当distribute by和sorts by字段相同时,可以使用cluster by方式。 cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC。 1)以下两种写法等价 hive (default)> 阅读全文
posted @ 2019-11-06 20:50 tunan96 阅读(736) 评论(0) 推荐(0) 编辑
摘要: Distribute By: 在有些情况下,我们需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。distribute by子句可以做这件事。distribute by类似MR中partition(自定义分区),进行分区,结合sort by使用。 对于distribute b 阅读全文
posted @ 2019-11-06 20:49 tunan96 阅读(23529) 评论(0) 推荐(0) 编辑
摘要: 每个MapReduce内部排序(Sort By) Sort By:对于大规模的数据集order by的效率非常低。在很多情况下,并不需要全局排序,此时可以使用sort by。 Sort by为每个reducer产生一个排序文件。每个Reducer内部进行排序,对全局结果集来说不是排序。 1.设置re 阅读全文
posted @ 2019-11-06 20:47 tunan96 阅读(1892) 评论(0) 推荐(0) 编辑
摘要: 1.having与where不同点 (1)where后面不能写分组函数,而having后面可以使用分组函数。 (2)having只用于group by分组统计语句。 2.案例实操 (1)求每个部门的平均工资 hive (default)> select deptno, avg(sal) from e 阅读全文
posted @ 2019-11-06 20:45 tunan96 阅读(9331) 评论(0) 推荐(0) 编辑
摘要: 典型的查询会返回多行数据。LIMIT子句用于限制返回的行数。 hive (default)> select * from emp limit 5; 阅读全文
posted @ 2019-11-06 20:43 tunan96 阅读(5129) 评论(0) 推荐(0) 编辑
摘要: 对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。Hive可以通过对表进行抽样来满足这个需求。 查询表stu_buck中的数据。 hive (default)> select * from stu_buck tablesample(bucket 1 out of 4 o 阅读全文
posted @ 2019-11-06 19:05 tunan96 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 1.相关函数说明 OVER(): 指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。 CURRENT ROW: 当前行 n PRECEDING: 往前n行数据 n FOLLOWING: 往后n行数据 UNBOUNDED: 起点,UNBOUNDED PRECEDING 表示从前面 阅读全文
posted @ 2019-11-06 12:55 tunan96 阅读(859) 评论(0) 推荐(0) 编辑
摘要: 1.函数说明 EXPLODE(col): explode(col)接受一个数组(或一个map)作为输入,并将数组元素(map)作为单独的行输出。 UDTF可以在SELECT表达式列表中使用,也可以作为LATERAL VIEW的一部分使用。 LATERAL VIEW: 用在FROM语句后:LATERA 阅读全文
posted @ 2019-11-06 00:11 tunan96 阅读(4505) 评论(0) 推荐(0) 编辑
摘要: 1.相关函数说明 CONCAT(string A/col, string B/col…): 返回输入字符串连接后的结果,支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...): 它是一个特殊形式的 CONCAT()。 第一个参数剩余参数间的分隔符。 分隔符可 阅读全文
posted @ 2019-11-05 23:59 tunan96 阅读(3643) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 25 下一页