摘要:
Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQL 但是,如果我想在reduce阶段对每天的uid形成一个列表,进行排序并输出,这在Hive中没有现成的功能。那么,可以自写脚本 阅读全文
摘要:
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的 阅读全文
摘要:
hive文件存储格式包括以下几类: 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE(0.11以后出现) 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理; SEQUENCEFILE,RCFILE 阅读全文
摘要:
正则匹配字符解释: ^ 表示开头 $ 表示结尾 . 表示任意字符 * 表示任意多个 regexp_extract函数 语法: regexp_extract(string subject, string pattern, int index) 返回值: string 说明: 将字符串subject按照 阅读全文
摘要:
hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false.下面是对于该参数的测试过程: 测试sql:select r1.a from (select t.a from sunwg_10 t join sunwg_10000000 s on t.a= 阅读全文
摘要:
原文地址:电商术语:客单价、UV、PV、转化率、销售额作者:馨闻莲博 UV(独立访客):Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只会被计算一次。 PV(访问量):PageView,即页面浏览量或点击量,用户每次刷新即被计算一次。 客单价 阅读全文
摘要:
很多时候,我们需要将Hive的查询(select)结果保存起来,方便进一步处理或查看。在Hive里面提供了不同的方式来保存查询结果,在这里做下总结: 一、保存结果到本地 方法1:调用hive标准输出,将查询结果写到指定的文件中 这个方法最为常见,笔者也经常使用。sql的查询结果将直接保存到/tmp/ 阅读全文
摘要:
开发中,经常进行模糊查询或者进行截取字符串进行模糊匹配,常用的就是substr函数或者substring函数。 使用语法: substr(string A, int start),substring(string A, int start) 两者用法一样,两个参数 返回值: string 说明:返回 阅读全文
摘要:
补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或where子句中引用,而后者不允许。 除了left outer join,Hive QL中还有rig 阅读全文