随笔分类 - Hive
摘要:1、concat concat函数在连接字符串的时候,只要其中一个是NULL,那么将返回NULL hive> select concat('a','b'); ab hive> select concat('a','b',null); NULL 2、concat_ws concat_ws函数在连接字符
阅读全文
摘要:1、MR支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 是 Snappy 无 Snappy .
阅读全文
摘要:1、相关函数 1.1 窗口函数 FIRST_VALUE:取分组内排序后,截止到当前行,第一个值 LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值 LEAD(col,n,DEFAULT) :用于统计窗口内往后第n行值。 第一个参数为列名, 第二个参数为往下第n行(可选,默认为1), 第
阅读全文
摘要:1、 问题:拒绝连接 解决方法:hiveserver2 连接异常,重启(hiveserver2连接比较慢要等一会) 我这里两个RunJar是启动了meatestore和hiveserver2 2、 user:duoduo is not allowed impersonate hadoop100 这个
阅读全文
摘要:1、显示数据库,列名 Apache <property> <name>hive.cli.print.header</name> <value>true</value> </property> <property> <name>hive.cli.print.current.db</name> <val
阅读全文
摘要:一、为了创建一个新的由Hive管理的HBase表,请使用CREATE TABLE CREATE TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler
阅读全文
摘要:1、日期函数 1.1 date_add 指定日期n天之后 用法:date_add(date('2018-09-09'),10) 参数类型分别为date和int,返回date类型 select date_add(date('2018-09-09'),10) -- 返回:2018-09-19 1.2 a
阅读全文
摘要:1、5种存储格式 Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile
阅读全文
摘要:一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等
阅读全文
摘要:1、数据导入 1)向表中装载数据(load) 语法 (1)load data:表示加载数据 (2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表 (3)inpath:表示加载数据的路径 (4)overwrite:表示覆盖表中已有数据,否则表示追加 (5)into ta
阅读全文
摘要:Hive和HBase的区别 hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,H
阅读全文
摘要:1、创建数据库 (1)创建一个数据库,数据库在hdfs上的默认存储路径是/user/hive/warehouse/ .db (2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) (3)创建一个数据库,指定数据库在HDFS上存放的位置 2、显示数据库 (1)显示数据库
阅读全文
摘要:1、分桶的概述 分区提供了一个隔离数据和优化查询的遍历方式。不是所有的数据集都可形成合力的分区 对于一张表或者分区,hive可以进一步组织成桶,也就是更为 细粒度 的数据范围 2、创建分桶表,数据通过子查询的方式导入 (1)创建一个普通表 (2)向普通表中导入数据 (3)创建分桶表 (3)通过 子查
阅读全文
摘要:1、全局排序(order by) ASC(ascend ):升序(默认) DESC(descend) :降序 2、每个MR内部排序(sort by) sort By:对于大规模的数据集order by的效率非常低。在很多情况下,并不需要全局排序,此时可以使用sort by Sort By为每个Red
阅读全文
摘要:一、hive安装部署 1、hive安装及配置 (1)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 (2)修改apache-hive-1.2.1-bin.tar.gz的名称为hive (3)修改/opt/module/hive/conf目录下的hive
阅读全文
摘要:一、什么是hive (1)Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 (2)Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 (3)本质是:将HQL转化成MapReduce程序 (4)Hive处理的数据存储在HDF
阅读全文