摘要:一、HiveServer2 ### HiveServer2 ~~~ HiveServer2是一个服务端接口,使远程客户端可以执行对Hive的查询并返回结果。 ~~~ 目前基于Thrift RPC的实现是HiveServer的改进版本,并支持多客户端并发和身份验证, ~~~ 启动hiveServer2
阅读全文
摘要:一、metastore内嵌模式配置 ### metastore内嵌模式配置流程 ~~~ 下载软件解压缩 ~~~ 设置环境变量,并使之生效 ~~~ 初始化数据库:schematool -dbType derby -initSchema ~~~ 进入hive命令行 ~~~ 再打开一个hive命令行,发现
阅读全文
摘要:一、元数据管理与存储 ~~~ [Hive元数据之metastore三种方式] ~~~ [Hive元数据之内嵌模式配置] ~~~ [Hive元数据之HiveServer2] ~~~ [Hive元数据之HCatalog] ### Metastore ~~~ 在Hive的具体使用中,首先面临的问题便是如何
阅读全文
摘要:一、HQL操作之--DML命令 ### HQL操作之--DML命令 ~~~ 数据操纵语言DML(Data Manipulation Language), ~~~ # DML主要有三种形式: ~~~ 插入(INSERT)、删除(DELETE)、更新(UPDATE)。 ~~~ 事务(transactio
阅读全文
摘要:一、SQL面试题 ### 连续7天登录的用户 ~~~ # 数据。uid dt status(1 正常登录,0 异常) [root@linux123 ~]# vim /home/hadoop/data/ulogin.dat 1 2019-07-11 1 1 2019-07-12 1 1 2019-07
阅读全文
摘要:一、自定义函数 ### 自定义函数 ~~~ 当 Hive 提供的内置函数无法满足实际的业务处理需要时,可以考虑使用用户自定义函数进行扩展。 ~~~ 用户自定义函数分为以下三类: ~~~ UDF(User Defined Function)。用户自定义函数,一进一出 ~~~ UDAF(User Def
阅读全文
摘要:一、UDTF函数【重要】 ### UDTF函数【重要】 ~~~ # UDTF : ~~~ User Defined Table-Generating Functions。 ~~~ 用户定义表生成函数,一行输入,多行输出。 ### explode,炸裂函数 ~~~ 就是将一行中复杂的 array 或者
阅读全文
摘要:一、窗口函数【重要】 ### 窗口函数 ~~~ 窗口函数又名开窗函数,属于分析函数的一种。 ~~~ 用于解决复杂报表统计需求的功能强大的函数,很多场景都需要用到。 ~~~ 窗口函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是: ~~~ 对于每个组返回多行,而聚合函数对于每个组只返回一行。 ~
阅读全文
摘要:一、系统内置函数 ~~~ [Hive函数之日期函数] ~~~ [Hive函数字符串函数及数学函数] ~~~ [Hive函数条件函数] ~~~ [Hive函数explode用法] ~~~ [Hive函数explode案例] ~~~ [Hive函数之窗口函数] ~~~ [Hive函数之windows子句
阅读全文
摘要:一、group by子句 ### group by子句 ~~~ GROUP BY语句通常与聚组函数一起使用, ~~~ 按照一个或多个列对数据进行分组,对每个组进行聚合操作。 ~~~ # 计算emp表每个部门的平均工资 hive (mydb)> select deptno, avg(sal) from
阅读全文
摘要:一、HQL操作之--DQL命令【重点】 ~~~ [Hive_DQL之简单查询] ~~~ [Hive_DQL之where子句] ~~~ [Hive_DQL之grouply子句] ~~~ [Hive_DQL之表连接] ~~~ [Hive_DQL之order by] ~~~ [Hive_DQL之sort
阅读全文
摘要:一、分区表 ### 分区表 ~~~ Hive在执行查询时,一般会扫描整个表的数据。由于表的数据量大,全表扫描消耗时间长、效率低。 ~~~ 而有时候,查询只需要扫描表中的一部分数据即可,Hive引入了分区表的概念, ~~~ 将表的数据存储在不同的子目录中,每一个子目录对应一个分区。 ~~~ 只查询部分
阅读全文
摘要:一、 数据导入 ~~~ [Hive数据库操作之load命令] ~~~ [Hive数据库操作之Insert命令] ~~~ [Hive数据库操作之数据导出] ### 装载数据(Load):基本语法: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO
阅读全文
摘要:一、内部表 & 外部表 ### 在创建表的时候,可指定表的类型。 ~~~ 表有两种类型,分别是内部表(管理表)、外部表。 ~~~ 默认情况下,创建内部表。如果要创建外部表,需要使用关键字 external ~~~ 在删除内部表时,表的定义(元数据) 和 数据 同时被删除 ~~~ 在删除外部表时,仅删
阅读全文
摘要:一、HQL操作之 -- DDL命令 ~~~ [Hive_DDL数据库操作] ~~~ [Hive_DDL之建表语法] ~~~ [Hive_DDL之内部表和外部表] ~~~ [Hive_DDL之分区表] ~~~ [Hive_DDL之分桶表] ~~~ [Hive_DDL之修改表及删除表] ### HQL操
阅读全文
摘要:一、Hive安装 ### 安装步骤: ~~~ 下载、上传、解压缩 ~~~ 修改环境变量 ~~~ 修改hive配置 ~~~ 拷贝JDBC的驱动程序 ~~~ 初始化元数据库 ### 下载Hive软件,并解压缩 [root@linux123 software]# pwd /opt/yanqi/softwa
阅读全文
摘要:一、数据类型与文件格式 ~~~ [Hive数据类型之基本数据类型及转换] ~~~ [Hive数据类型之集合数据类型] ~~~ [Hive文本文件数据编码及读时模式] ### 数据类型与文件格式 ~~~ Hive支持关系型数据库的绝大多数基本数据类型,同时也支持4种集合数据类型。 ### 基本数据类型
阅读全文
摘要:一、Hive概述 ~~~ [课程内容介绍及数据仓库工具Hive的产生背景] ~~~ [数仓工具Hive与RDBMS对比] ~~~ [数仓工具Hive的优缺点] ~~~ [数仓工具Hive的架构原理] ### Hive概述 ~~~ HDFS => 海量数据的存储 ~~~ MapReduce => 海量
阅读全文
摘要:一、Hive安装配置 ~~~ [安装mysql数据库] ~~~ [Hive的安装与配置] ~~~ [Hive安装的注意事项] ~~~ [Hive参数配置和命令] ### 环境准备 ~~~ Hive官网:http://hive.apache.org ~~~ 下载网址:http://archive.ap
阅读全文
摘要:附录一:报错处理一: ~~~ [sqoop创建job缺省java-json.jar]——NoClassDefFoundError: org/json/JSONObject ~~~ [sqoop创建job的password文件格式错误]——java.sql.SQLException ### 报错现象:
阅读全文