Hive初识

·什么是数据仓库?

数据仓库(一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于企业或组织的决策分析处理)。

·数据仓库的结构和建立过程:

数据源(Sq,文档,其他)-----抽取、转换、装载----> 数据存储和管理--------->数据仓库引擎-------->前段展示

·什么是Hive?

1)构建在Hadoop HDFS上的数据仓库;

2)用来进行数据提取转化加载;

3)定义了简单的类似SQL查询语言,称为HQL它允许熟悉SQL的用户查询数据;

4)可开发自定义的Mapper和Reducer;

5)SQL解析引擎,将SQL语句转移成M/R Job然后在Hadoop执行;

6)Hive就是HDFS的目录/文件.

··Hive的体系结构是什么?

解释器(词法分析)、编译器(生成HQL的执行计划)、优化器(生成最佳的执行计划)  完成HQL的解析和执行过程。生成的查询计划存储在HDFS中,并随后有MapReduce调用执行。

体系结构:

包括:(Command Line Interface, JDBC/ODBC, Web Console, metastore元数据)———> Hive Driver.

··Hive如何与Hadoop HDFS进行相互操作?

 

**Hive数据与Hadoop中的文件之间的关系?

 

posted @ 2015-10-19 19:20  闷头雪IT  阅读(148)  评论(0编辑  收藏  举报