Hive - 随笔分类 - Avery_rainys

Flink 配置HADOOP_CLASSPATH 影响Hive的日志打印问题

摘要：由于Flink on Yarn的部署需要hadoop的依赖：比较常见的解决方式会将hadoop calsspath放在Linux的系统环境变量下，但是这里会影响Hive的日志级别，导致Hive打印过多的INFO日志。解决方案有两种： 1. 将hadoop classpath加入到fink的局部配阅读全文

posted @ 2022-11-20 11:36 Avery_rainys 阅读(1131) 评论(0) 推荐(0)

hive的空值

摘要：hive 的空值结论，string默认的空值只能是\N, 因为string本身区分大小写，且要双重转义'\\N'插入空值；而其他类型\n和\N都会识别成空值。在通过*和1进行聚合计算的时候，所有的行都会计入，而聚合某个字段时，空值不会被计算。如count(*) = count(1) > coun 阅读全文

posted @ 2022-09-22 10:39 Avery_rainys 阅读(190) 评论(0) 推荐(0)

MapJoin与小表驱动大表

摘要：SQL常说用小表驱动大表，网上很多帖子也是说hive也是小表驱动大表。但实际用expalin执行计划测的时候，Left Join大表写在前面时执行了MapJoin,小表写前面反而没采用MapJoin，为了确定确实是表大小的顺序原因，我更改了set hive.mapjoin.smalltable.f 阅读全文

posted @ 2022-09-21 09:03 Avery_rainys 阅读(550) 评论(0) 推荐(0)

常用函数

摘要：一、常用日期函数 1. unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp();select unix_timestamp("2020-10-28",'yyyy-MM-dd'); 2. from_unixtime：将时间戳转为日期格式select f 阅读全文

posted @ 2022-08-14 16:21 Avery_rainys 阅读(71) 评论(0) 推荐(0)

HIVE优化之记录的分离与聚合

摘要：行转列 ① CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串; ② CONCAT_WS(separator, str1, str2,...)： ·它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。 ·分隔符可以阅读全文

posted @ 2022-08-14 16:16 Avery_rainys 阅读(228) 评论(0) 推荐(0)

HQL语法注意点

摘要：先过滤后联表。 from 和 join支持子查询的嵌套, where中不支持子查询嵌套， having不支持子查询。 where 不能使用select中的别名，having可以。 HQL中select distinct不能和group by 共用 = 不推荐使用distinct去重，因为distin 阅读全文

posted @ 2022-08-12 20:24 Avery_rainys 阅读(57) 评论(0) 推荐(0)

Avery_rainys

随笔分类 - Hive

公告