Hive - 随笔分类 - hyunbar

【累积型快照事实表】订单表

摘要：1、concat concat函数在连接字符串的时候，只要其中一个是NULL，那么将返回NULL hive> select concat('a','b'); ab hive> select concat('a','b',null); NULL 2、concat_ws concat_ws函数在连接字符阅读全文

posted @ 2020-09-02 15:46 hyunbar 阅读(795) 评论(0) 推荐(0) 编辑

hadoop压缩

摘要：1、MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 是 Snappy 无 Snappy . 阅读全文

posted @ 2020-08-19 09:59 hyunbar 阅读(187) 评论(0) 推荐(0) 编辑

Hive常用函数大全（窗口函数、分析函数）

摘要：1、相关函数 1.1 窗口函数 FIRST_VALUE：取分组内排序后，截止到当前行，第一个值 LAST_VALUE：取分组内排序后，截止到当前行，最后一个值 LEAD(col,n,DEFAULT) ：用于统计窗口内往后第n行值。第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第阅读全文

posted @ 2020-08-18 17:50 hyunbar 阅读(3484) 评论(0) 推荐(0) 编辑

hive JDBC连接总结

摘要：1、问题：拒绝连接解决方法：hiveserver2 连接异常，重启（hiveserver2连接比较慢要等一会）我这里两个RunJar是启动了meatestore和hiveserver2 2、 user:duoduo is not allowed impersonate hadoop100 这个阅读全文

posted @ 2020-08-09 13:57 hyunbar 阅读(1979) 评论(0) 推荐(0) 编辑

hive笔记

摘要：1、显示数据库，列名 Apache <property> <name>hive.cli.print.header</name> <value>true</value> </property> <property> <name>hive.cli.print.current.db</name> <val 阅读全文

posted @ 2020-07-30 19:02 hyunbar 阅读(117) 评论(0) 推荐(0) 编辑

HBase集成hive

摘要：一、为了创建一个新的由Hive管理的HBase表，请使用CREATE TABLE CREATE TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler 阅读全文

posted @ 2020-07-27 11:25 hyunbar 阅读(217) 评论(0) 推荐(0) 编辑

hive函数

摘要：1、日期函数 1.1 date_add 指定日期n天之后用法：date_add(date('2018-09-09'),10) 参数类型分别为date和int，返回date类型 select date_add(date('2018-09-09'),10) -- 返回：2018-09-19 1.2 a 阅读全文

posted @ 2020-07-22 15:59 hyunbar 阅读(470) 评论(0) 推荐(0) 编辑

Hive 文件存储格式

摘要：1、5种存储格式 Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。在建表时使用STORED AS (TextFile 阅读全文

posted @ 2020-03-19 21:48 hyunbar 阅读(3333) 评论(0) 推荐(0) 编辑

Hive优化一

摘要：一、Hadoop 框架计算特性 1、数据量大不是问题，数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个 jobs，耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等阅读全文

posted @ 2020-03-11 10:19 hyunbar 阅读(207) 评论(0) 推荐(0) 编辑

hive DML操作

摘要：1、数据导入 1）向表中装载数据（load）语法（1）load data:表示加载数据（2）local:表示从本地加载数据到hive表；否则从HDFS加载数据到hive表（3）inpath:表示加载数据的路径（4）overwrite:表示覆盖表中已有数据，否则表示追加（5）into ta 阅读全文

posted @ 2019-10-24 15:02 hyunbar 阅读(364) 评论(0) 推荐(0) 编辑

hive Hbase sql

摘要：Hive和HBase的区别 hive是为了简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要hive这样的用戶编程接口。Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，H 阅读全文

posted @ 2019-10-24 11:26 hyunbar 阅读(854) 评论(0) 推荐(0) 编辑

hive DDL操作

摘要：1、创建数据库（1）创建一个数据库，数据库在hdfs上的默认存储路径是/user/hive/warehouse/ .db （2）避免要创建的数据库已经存在错误，增加if not exists判断。（标准写法）（3）创建一个数据库，指定数据库在HDFS上存放的位置 2、显示数据库（1）显示数据库阅读全文

posted @ 2019-10-24 10:02 hyunbar 阅读(382) 评论(0) 推荐(0) 编辑

hive 分桶及抽样调查

摘要：1、分桶的概述分区提供了一个隔离数据和优化查询的遍历方式。不是所有的数据集都可形成合力的分区对于一张表或者分区，hive可以进一步组织成桶，也就是更为细粒度的数据范围 2、创建分桶表，数据通过子查询的方式导入（1）创建一个普通表（2）向普通表中导入数据（3）创建分桶表（3）通过子查阅读全文

posted @ 2019-10-23 20:26 hyunbar 阅读(827) 评论(0) 推荐(0) 编辑

hive 排序

摘要：1、全局排序（order by） ASC（ascend ）：升序（默认） DESC（descend）：降序 2、每个MR内部排序（sort by） sort By：对于大规模的数据集order by的效率非常低。在很多情况下，并不需要全局排序，此时可以使用sort by Sort By为每个Red 阅读全文

posted @ 2019-10-23 20:14 hyunbar 阅读(2370) 评论(0) 推荐(0) 编辑

hive环境

摘要：一、hive安装部署 1、hive安装及配置（1）解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面（2）修改apache-hive-1.2.1-bin.tar.gz的名称为hive （3）修改/opt/module/hive/conf目录下的hive 阅读全文

posted @ 2019-10-18 21:28 hyunbar 阅读(316) 评论(0) 推荐(0) 编辑

Hive基础

摘要：一、什么是hive （1）Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。（2）Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。（3）本质是：将HQL转化成MapReduce程序（4）Hive处理的数据存储在HDF 阅读全文

posted @ 2019-10-18 20:45 hyunbar 阅读(142) 评论(0) 推荐(0) 编辑

hyunbar

随笔分类 - Hive

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论