Hive 教程(十)-UDF
摘要:hive 虽然自带了很多函数,但是毕竟有限,无法满足所有业务场景,用户可以自定义函数来实现特定功能 UDF user define function,用户自定义函数 可以分为 3 类 UDF:一进一出 UDAF:聚集函数,多进一出,user define aggregation function U
阅读全文
Hive 教程(九)-python with hive
摘要:本文介绍用 python 远程连接 hive,此时需要 hive 启动 hiveserver2 服务 windows 下报如下错误 thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl
阅读全文
Hive 教程(八)-hiveserver2
摘要:hive 的另外一种启动方式是 hiveserver2,它是提供了一种服务,使得我们可以远程操作 hive,就像操作 mysql 一样 hiveserver1 既然有 hiveserver2,肯定有 hiveserver1,不过已经被淘汰,不多做解释,hiveserver1 的缺点是不支持并发,hi
阅读全文
Hive 教程(七)-DML基础
摘要:DML,Hive Data Manipulation Language,数据操作语言; 通俗理解就是数据库里与数据的操作,如增删改查,统计汇总等; Loading files into tables 把文件数据写入 table,load 操作不对数据做任何转换 LOAD DATA [LOCAL] I
阅读全文
Hive 教程(六)-Hive Cli
摘要:hive 有两种启动方式,一种是 bin/hive,一种是 hiveserver2, bin/hive 是 hive 的 shell 模式,所有任务在 shell 中完成,shell 就相当于 hive cli hive 命令行参数 [root@hadoop10 hive2.3.6]# hive -
阅读全文
Hive 教程(五)-参数配置
摘要:配置基本操作 hive> set; 查看所有配置hive> set key; 查看某个配置hive> set key value; 设置某个配置 我们可以看到一些 hadoop 的配置,因为 hive 也读入了 hadoop 的配置 三种参数配置方式 1. 配置文件 默认配置文件:hive-defa
阅读全文
Hive 教程(四)-分区表与分桶表
摘要:在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表。 概念 分区表 在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹; 可以通过多层文件夹的方式创建多层分区; 通过文件夹把数据分开 分桶表 分桶表中的每个桶对应 hdfs 上的一个文件;
阅读全文
Hive 教程(三)-DDL基础
摘要:DDL,Hive Data Definition Language,数据定义语言; 通俗理解就是数据库与库表相关的操作,本文总结一下基本方法 hive 数据仓库配置 hive 数据仓库默认位置在 hdfs 上的 /user/hive/warehouse 路径下; hive 有个默认的数据库叫 def
阅读全文
Hive 教程(二)-认知hive
摘要:在大数据领域,hive 的位置非常重要,排名前三的大数据工具为 spark、hive、kafka 什么是hive 在大数据领域有 3 种需求场景:传输、存储、计算; hive 是一个处理海量的结构化数据的计算引擎; hive 是基于 hadoop 的一个数据仓库工具,他将结构化的数据数据文件映射为一
阅读全文
Hive 教程(一)-安装与配置解析
摘要:安装就安装 ,不扯其他的 hive 依赖 在 hive 安装前必须具备如下条件 1. 一个可连接的关系型数据库,如 Mysql,postgresql 等,用于存储元数据 2. hadoop,并启动 hdfs 3. HBase,非必须,但是如果不装,会有警告,不过不影响使用 4. java,1.8 以
阅读全文