随笔分类 - hive
摘要:背景 早在2013年1月,ORC(Optimized Row Columnar)出现,作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。 目前有很多公司已经大规模使用ORC了,比如Facebook
阅读全文
摘要:控制hive任务中的map数 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 举
阅读全文
摘要:分析函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。 开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化!到底什么是数据窗口?后面举例会详细讲到! 基础结构: 分析函数(如:sum(),max(),row_
阅读全文
摘要:介绍 LEFT SEMI JOIN (左半连接)是 IN/EXISTS 子查询的一种更高效的实现。 示例 SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B); 可以改写为 SELECT a.key, a.val FROM
阅读全文
摘要:hive官网关于桶表的介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL+BucketedTables hive官网关于tablesample的介绍:https://cwiki.apache.org/confl
阅读全文
摘要:大表x小表 这里可以利用mapjoin,SparkSQL中也有mapjoin或者使用广播变量能达到同样效果,此处描述HQL // 开启mapjoin并设定map表大小 set hive.auto.convert.join.noconditionaltask = true; set hive.auto
阅读全文
摘要:hive数据类型包括:数字类型,时间类型,string类型,misc类型和复合类型 数值类型包括: TINYINT (1-byte,表示从-128到127的整数) SMALLINT (2-byte,表示从-32,768到32,767的整数) INT/INTEGER (4-byte,表示从-2,147
阅读全文
摘要:创建了一张hive表,对字段增加了注释,比如comment '注释内容' 之类的,但是在hive client查看时候却是乱码 比如: create table test_ultraedit ( id int comment 'id', name string comment '名字' ); 在hi
阅读全文
摘要:文章转载自公众号 美团技术团队 , 作者 萌萌 背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系
阅读全文
摘要:创建一张表test_explode,表结构如下 表数据如下: 1.使用explode函数 但是只使用explode函数很难满足实际需求,原因如下: 1.1 No other expressions are allowed in SELECT 1.2 UDTF's can't be nested 1.
阅读全文
摘要:针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties hive.mer
阅读全文