hive - 随笔分类 - sw_kong

Hive ORC File Format

摘要：背景早在2013年1月，ORC(Optimized Row Columnar)出现，作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。目前有很多公司已经大规模使用ORC了，比如Facebook 阅读全文

posted @ 2020-05-21 15:33 sw_kong 阅读(600) 评论(0) 推荐(0) 编辑

控制hive任务中的map数和reduce数

摘要：控制hive任务中的map数通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；举阅读全文

posted @ 2020-05-21 09:13 sw_kong 阅读(536) 评论(0) 推荐(0) 编辑

Hive开窗函数整理

摘要：分析函数用于计算基于组的某种聚合值，它和聚合函数的不同之处是：对于每个组返回多行，而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变化而变化！到底什么是数据窗口？后面举例会详细讲到！基础结构：分析函数（如:sum(),max(),row_ 阅读全文

posted @ 2020-05-19 16:21 sw_kong 阅读(6341) 评论(0) 推荐(0) 编辑

hive 的 left semi join

摘要：介绍 LEFT SEMI JOIN （左半连接）是 IN/EXISTS 子查询的一种更高效的实现。示例 SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B); 可以改写为 SELECT a.key, a.val FROM 阅读全文

posted @ 2020-03-12 16:57 sw_kong 阅读(771) 评论(0) 推荐(0) 编辑

Hive中的数据分桶以及使用场景

摘要：hive官网关于桶表的介绍：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL+BucketedTables hive官网关于tablesample的介绍：https://cwiki.apache.org/confl 阅读全文

posted @ 2020-03-03 11:25 sw_kong 阅读(2032) 评论(0) 推荐(0) 编辑

Hive Join优化经验

摘要：大表x小表这里可以利用mapjoin，SparkSQL中也有mapjoin或者使用广播变量能达到同样效果，此处描述HQL // 开启mapjoin并设定map表大小 set hive.auto.convert.join.noconditionaltask = true; set hive.auto 阅读全文

posted @ 2020-01-09 13:23 sw_kong 阅读(3216) 评论(0) 推荐(0) 编辑

hive数据类型

摘要：hive数据类型包括：数字类型，时间类型，string类型，misc类型和复合类型数值类型包括： TINYINT (1-byte,表示从-128到127的整数) SMALLINT (2-byte,表示从-32,768到32,767的整数) INT/INTEGER (4-byte,表示从-2,147 阅读全文

posted @ 2019-11-21 10:24 sw_kong 阅读(1447) 评论(0) 推荐(0) 编辑

hive表字段注释显示乱码问题

摘要：创建了一张hive表，对字段增加了注释，比如comment '注释内容' 之类的，但是在hive client查看时候却是乱码比如： create table test_ultraedit ( id int comment 'id', name string comment '名字' ); 在hi 阅读全文

posted @ 2019-11-19 15:02 sw_kong 阅读(658) 评论(0) 推荐(0) 编辑

【转】美团 MySQL 数据实时同步到 Hive 的架构与实践

摘要：文章转载自公众号美团技术团队，作者萌萌背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS（Operational Data Store）数据。在互联网企业中，常见的ODS数据有业务日志数据（Log）和业务DB数据（DB）两类。对于业务DB数据来说，从MySQL等关系阅读全文

posted @ 2019-11-19 10:10 sw_kong 阅读(4424) 评论(4) 推荐(0) 编辑

hive explode 行拆列

摘要：创建一张表test_explode，表结构如下表数据如下： 1.使用explode函数但是只使用explode函数很难满足实际需求，原因如下： 1.1 No other expressions are allowed in SELECT 1.2 UDTF's can't be nested 1. 阅读全文

posted @ 2019-08-18 09:45 sw_kong 阅读(724) 评论(0) 推荐(0) 编辑

spark sql/hive小文件问题

摘要：针对hive on mapreduce 1：我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并：参数详细内容可参考官网：https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties hive.mer 阅读全文

posted @ 2019-08-07 10:25 sw_kong 阅读(2998) 评论(5) 推荐(0) 编辑

sw_kong

随笔分类 - hive

公告