随笔分类 -  Hive

摘要:1、concat concat函数在连接字符串的时候,只要其中一个是NULL,那么将返回NULL hive> select concat('a','b'); ab hive> select concat('a','b',null); NULL 2、concat_ws concat_ws函数在连接字符 阅读全文
posted @ 2020-09-02 15:46 hyunbar 阅读(795) 评论(0) 推荐(0) 编辑
摘要:1、MR支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 是 Snappy 无 Snappy . 阅读全文
posted @ 2020-08-19 09:59 hyunbar 阅读(187) 评论(0) 推荐(0) 编辑
摘要:1、相关函数 1.1 窗口函数 FIRST_VALUE:取分组内排序后,截止到当前行,第一个值 LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值 LEAD(col,n,DEFAULT) :用于统计窗口内往后第n行值。 第一个参数为列名, 第二个参数为往下第n行(可选,默认为1), 第 阅读全文
posted @ 2020-08-18 17:50 hyunbar 阅读(3484) 评论(0) 推荐(0) 编辑
摘要:1、 问题:拒绝连接 解决方法:hiveserver2 连接异常,重启(hiveserver2连接比较慢要等一会) 我这里两个RunJar是启动了meatestore和hiveserver2 2、 user:duoduo is not allowed impersonate hadoop100 这个 阅读全文
posted @ 2020-08-09 13:57 hyunbar 阅读(1979) 评论(0) 推荐(0) 编辑
摘要:1、显示数据库,列名 Apache <property> <name>hive.cli.print.header</name> <value>true</value> </property> <property> <name>hive.cli.print.current.db</name> <val 阅读全文
posted @ 2020-07-30 19:02 hyunbar 阅读(117) 评论(0) 推荐(0) 编辑
摘要:一、为了创建一个新的由Hive管理的HBase表,请使用CREATE TABLE CREATE TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler 阅读全文
posted @ 2020-07-27 11:25 hyunbar 阅读(217) 评论(0) 推荐(0) 编辑
摘要:1、日期函数 1.1 date_add 指定日期n天之后 用法:date_add(date('2018-09-09'),10) 参数类型分别为date和int,返回date类型 select date_add(date('2018-09-09'),10) -- 返回:2018-09-19 1.2 a 阅读全文
posted @ 2020-07-22 15:59 hyunbar 阅读(470) 评论(0) 推荐(0) 编辑
摘要:1、5种存储格式 Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile 阅读全文
posted @ 2020-03-19 21:48 hyunbar 阅读(3333) 评论(0) 推荐(0) 编辑
摘要:一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等 阅读全文
posted @ 2020-03-11 10:19 hyunbar 阅读(207) 评论(0) 推荐(0) 编辑
摘要:1、数据导入 1)向表中装载数据(load) 语法 (1)load data:表示加载数据 (2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表 (3)inpath:表示加载数据的路径 (4)overwrite:表示覆盖表中已有数据,否则表示追加 (5)into ta 阅读全文
posted @ 2019-10-24 15:02 hyunbar 阅读(364) 评论(0) 推荐(0) 编辑
摘要:Hive和HBase的区别 ​ hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,H 阅读全文
posted @ 2019-10-24 11:26 hyunbar 阅读(854) 评论(0) 推荐(0) 编辑
摘要:1、创建数据库 (1)创建一个数据库,数据库在hdfs上的默认存储路径是/user/hive/warehouse/ .db (2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) (3)创建一个数据库,指定数据库在HDFS上存放的位置 2、显示数据库 (1)显示数据库 阅读全文
posted @ 2019-10-24 10:02 hyunbar 阅读(382) 评论(0) 推荐(0) 编辑
摘要:1、分桶的概述 分区提供了一个隔离数据和优化查询的遍历方式。不是所有的数据集都可形成合力的分区 对于一张表或者分区,hive可以进一步组织成桶,也就是更为 细粒度 的数据范围 2、创建分桶表,数据通过子查询的方式导入 (1)创建一个普通表 (2)向普通表中导入数据 (3)创建分桶表 (3)通过 子查 阅读全文
posted @ 2019-10-23 20:26 hyunbar 阅读(827) 评论(0) 推荐(0) 编辑
摘要:1、全局排序(order by) ASC(ascend ):升序(默认) DESC(descend) :降序 2、每个MR内部排序(sort by) sort By:对于大规模的数据集order by的效率非常低。在很多情况下,并不需要全局排序,此时可以使用sort by Sort By为每个Red 阅读全文
posted @ 2019-10-23 20:14 hyunbar 阅读(2370) 评论(0) 推荐(0) 编辑
摘要:一、hive安装部署 1、hive安装及配置 (1)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 (2)修改apache-hive-1.2.1-bin.tar.gz的名称为hive (3)修改/opt/module/hive/conf目录下的hive 阅读全文
posted @ 2019-10-18 21:28 hyunbar 阅读(316) 评论(0) 推荐(0) 编辑
摘要:一、什么是hive (1)Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 (2)Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 (3)本质是:将HQL转化成MapReduce程序 (4)Hive处理的数据存储在HDF 阅读全文
posted @ 2019-10-18 20:45 hyunbar 阅读(142) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示