HIVE 工作原理

HIVE架构

Hive组件

用户接口/界面

Hive是一个数据仓库基础工具软件，可以创建用户和HDFS之间互动。用户界面，Hive支持是Hive的Web UI，Hive命令行，HiveHD洞察（在Windows服务器），用户提交查询的地方。

Meta Store元数据存储

Hive选择各自的数据库服务器（一般是Mysql），用以储存表，数据库，列模式等元数据，在功能上Metastore分为两个部分：用户的请求服务和存储

存储部署的三种模式:

1.内嵌模式

内嵌模式是Hive Metastore的最简单的部署方式，使用Hive内嵌的Derby数据库来存储元数据。但是Derby只能接受一个Hive会话的访问，试图启动第二个Hive会话就会导致Metastore连接失败。

2.本地模式

本地模式是Metastore的默认模式（懒人专用模式）。该模式下，单Hive会话（一个Hive 服务JVM）以组件方式调用Metastore和Driver。我们可以采用MySQL作为Metastore的数据库。下面列出部署细节：

在hive-site.xml中设置MySQL的Connection URL、用户名和密码以及ConnectionDriverName；

将MySQL的JDBC驱动Jar文件放到Hive的lib目录下。

3.远程模式

远程模式将Metastore分离出来，成为一个独立的Hive服务（Metastore服务还可以部署多个）。这样的模式可以将数据库层完全置于防火墙后，客户就不再需要用户名和密码登录数据库，避免了认证信息的泄漏。

hive.metastore.local false为远程模式

hive.metastore.uris 远端模式下Metastore的URI列表。

HiveQL处理引擎

HiveQL类似于SQL的查询上Metastore模式信息。这是传统的方式进行MapReduce程序的替代品之一。相反，使用Java编写的MapReduce程序，可以编写为MapReduce工作，并处理它的查询。

执行引擎

HiveQL处理引擎和MapReduce的结合部分是由Hive执行引擎。执行引擎处理查询并产生结果和MapReduce的结果一样。它采用MapReduce方法。

HDFS 或 HBASE

Hadoop的分布式文件系统或者HBASE数据存储技术是用于将数据存储到文件系统。

Hive的查询过程

1 Execute Query

Hive接口，如命令行或Web UI发送查询驱动程序（任何数据库驱动程序，如JDBC，ODBC等）来执行。

2 Get Plan

在驱动程序帮助下查询编译器，分析查询检查语法和查询计划或查询的要求。

3 Get Metadata

编译器发送元数据请求到Metastore（任何数据库），获得查询语句对应的元数据信息。

4 Send Metadata

Metastore发送元数据，以编译器的响应。

5 Send Plan

编译器检查要求，并重新发送计划给驱动程序。到此为止，查询解析和编译完成。

6 Execute Plan

驱动程序发送的执行计划到执行引擎。

6.1 Execute Job

在内部，执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker，在名称节点并把它分配作业到TaskTracker，这是在数据节点。在这里，查询执行MapReduce工作。

6.2 Metadata Ops

与此同时，在执行时，执行引擎可以通过Metastore执行元数据操作。

8 Send Results

执行引擎发送这些结果值给驱动程序。

9 Fetch Result

执行引擎接收来自数据节点的结果。

10 Send Results

驱动程序将结果发送给Hive接口。

posted on 2020-09-06 20:56 淡如清风阅读(512) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部