数据仓库Hive

1、Hive的存在可以简化MapReduce实现过程

(1)MapReduce编程的不便

(2)传统关系型数据库RDBMS人员的需要

(3)HDFS上的文件没有schema的概念:即没有表明、字段名、字段类型等信息。仅仅是一个字符串的文件。

 

2、Hive是什么?

(1)由Facebook开源,用于解决海量结构化日志的数据统计问题

(2)构建在Hadoop之上的数据仓库(当计算/存储能力不够,直接线性添加机器即可)

(3)Hive提供的SQL查询语言:HQL

(4)Hive底层支持多种不同的执行引擎:MR/Tez/Spark(在Hive里通过一个参数设置,即可更换底层引擎执行。客户对引擎是不感知的)

(5)使用SQL对海量数据的数据进行统计、分析的一个工具。

 

3、使用Hive的原因

(1)简单、容易上手

(2)为超大数据集设计的一个计算/存储扩展能力

(3)提供了统一的元数据管理:

  Hive数据是存放在HDFS(普通的文本)上

  元数据信息(记录数据[HDFS上的数据]的数据[描述HDFS的数据])是存放在MySQL中。

  SQL on Hadoop 提供的框架:Hive、Spark SQL、impala....(因为有统一的元数据管理,使用的框架可以任意更换,方便Hive上的作业移植到其他平台中)

 

4、Hive在Hadoop生态系统中的位置

(1)Hive是构建在Hadoop之上的数据仓库,数据是存放在HDFS上的。

(2)当作业运行,即一个sql经过Hive,会自动翻译成MapRrduce作业,然后作业提交给YARN运行。然后不用担心MapRrduce到底是怎么实现了。

 

posted @ 2021-07-28 15:56  酱汁怪兽  阅读(350)  评论(0编辑  收藏  举报