// // // //

随笔分类 -  BD大数据-Hive

 
Hive 教程(十)-UDF
摘要:hive 虽然自带了很多函数,但是毕竟有限,无法满足所有业务场景,用户可以自定义函数来实现特定功能 UDF user define function,用户自定义函数 可以分为 3 类 UDF:一进一出 UDAF:聚集函数,多进一出,user define aggregation function U 阅读全文
posted @ 2019-11-21 14:33 努力的孔子 阅读(938) 评论(0) 推荐(0) 编辑
Hive 教程(九)-python with hive
摘要:本文介绍用 python 远程连接 hive,此时需要 hive 启动 hiveserver2 服务 windows 下报如下错误 thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl 阅读全文
posted @ 2019-11-05 10:56 努力的孔子 阅读(1197) 评论(0) 推荐(0) 编辑
Hive 教程(八)-hiveserver2
摘要:hive 的另外一种启动方式是 hiveserver2,它是提供了一种服务,使得我们可以远程操作 hive,就像操作 mysql 一样 hiveserver1 既然有 hiveserver2,肯定有 hiveserver1,不过已经被淘汰,不多做解释,hiveserver1 的缺点是不支持并发,hi 阅读全文
posted @ 2019-11-04 16:39 努力的孔子 阅读(4414) 评论(1) 推荐(0) 编辑
Hive 教程(七)-DML基础
摘要:DML,Hive Data Manipulation Language,数据操作语言; 通俗理解就是数据库里与数据的操作,如增删改查,统计汇总等; Loading files into tables 把文件数据写入 table,load 操作不对数据做任何转换 LOAD DATA [LOCAL] I 阅读全文
posted @ 2019-11-04 11:15 努力的孔子 阅读(495) 评论(0) 推荐(0) 编辑
Hive 教程(六)-Hive Cli
摘要:hive 有两种启动方式,一种是 bin/hive,一种是 hiveserver2, bin/hive 是 hive 的 shell 模式,所有任务在 shell 中完成,shell 就相当于 hive cli hive 命令行参数 [root@hadoop10 hive2.3.6]# hive - 阅读全文
posted @ 2019-11-02 15:03 努力的孔子 阅读(1382) 评论(0) 推荐(0) 编辑
Hive 教程(五)-参数配置
摘要:配置基本操作 hive> set; 查看所有配置hive> set key; 查看某个配置hive> set key value; 设置某个配置 我们可以看到一些 hadoop 的配置,因为 hive 也读入了 hadoop 的配置 三种参数配置方式 1. 配置文件 默认配置文件:hive-defa 阅读全文
posted @ 2019-11-02 14:37 努力的孔子 阅读(380) 评论(0) 推荐(0) 编辑
Hive 教程(四)-分区表与分桶表
摘要:在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表。 概念 分区表 在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹; 可以通过多层文件夹的方式创建多层分区; 通过文件夹把数据分开 分桶表 分桶表中的每个桶对应 hdfs 上的一个文件; 阅读全文
posted @ 2019-11-02 14:32 努力的孔子 阅读(1173) 评论(0) 推荐(0) 编辑
Hive 教程(三)-DDL基础
摘要:DDL,Hive Data Definition Language,数据定义语言; 通俗理解就是数据库与库表相关的操作,本文总结一下基本方法 hive 数据仓库配置 hive 数据仓库默认位置在 hdfs 上的 /user/hive/warehouse 路径下; hive 有个默认的数据库叫 def 阅读全文
posted @ 2019-11-02 09:49 努力的孔子 阅读(847) 评论(0) 推荐(0) 编辑
Hive 教程(二)-认知hive
摘要:在大数据领域,hive 的位置非常重要,排名前三的大数据工具为 spark、hive、kafka 什么是hive 在大数据领域有 3 种需求场景:传输、存储、计算; hive 是一个处理海量的结构化数据的计算引擎; hive 是基于 hadoop 的一个数据仓库工具,他将结构化的数据数据文件映射为一 阅读全文
posted @ 2019-11-01 10:37 努力的孔子 阅读(2045) 评论(0) 推荐(0) 编辑
Hive 教程(一)-安装与配置解析
摘要:安装就安装 ,不扯其他的 hive 依赖 在 hive 安装前必须具备如下条件 1. 一个可连接的关系型数据库,如 Mysql,postgresql 等,用于存储元数据 2. hadoop,并启动 hdfs 3. HBase,非必须,但是如果不装,会有警告,不过不影响使用 4. java,1.8 以 阅读全文
posted @ 2019-10-31 15:44 努力的孔子 阅读(6690) 评论(0) 推荐(0) 编辑

 

点击右上角即可分享
微信分享提示