摘要: 前言: 压缩概述: 压缩技术能够有效减少底层存储系统(HDFS)读写字节数.压缩提高了网络带宽和磁盘空间的效率,在运行MR程序时,I/O操作,网络数据传输,Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得尤为重要. 鉴于磁盘I/O和网络带宽是 阅读全文
posted @ 2021-08-16 16:32 明明就- 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 一 安装tez 1.下载tez.tar 2.安装 tar -zxvf tez-0.9.1.tar.gz -C /opt/module 3.修改名称 mv tez-0.9.1-bin tez-0.9.1 二 在Hive中配置tez 1.进入Hive的配置目录/opt/module/hive/conf 阅读全文
posted @ 2021-08-16 15:47 明明就- 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 关于HIVE实现自定义函数,步骤主要可分为: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate()方法 打包jar 添加jar包 使用自定义函数 下面是具体实现,包括自定义临时函数和自定义永久函数。 编写自定义函数 public class AddPre 阅读全文
posted @ 2021-08-16 10:30 明明就- 阅读(502) 评论(0) 推荐(1) 编辑
摘要: Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-G 阅读全文
posted @ 2021-08-16 10:24 明明就- 阅读(91) 评论(0) 推荐(0) 编辑
摘要: Hive源数据默认存储在derby数据库中,不支持多客户端访问,所以需要将源数据存储在Mysql中,才支持多客户端访问。主要架构如下: HIVE解析成MR的过程: Hive通过给用户提供一系列交互接口,接受到用户的指令(sql语句),结合源数据(metastore),经过Driver内的解析器、编译 阅读全文
posted @ 2021-08-16 10:20 明明就- 阅读(324) 评论(0) 推荐(0) 编辑