Hive初识
·什么是数据仓库?
数据仓库(一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于企业或组织的决策分析处理)。
·数据仓库的结构和建立过程:
数据源(Sq,文档,其他)-----抽取、转换、装载----> 数据存储和管理--------->数据仓库引擎-------->前段展示
·什么是Hive?
1)构建在Hadoop HDFS上的数据仓库;
2)用来进行数据提取转化加载;
3)定义了简单的类似SQL查询语言,称为HQL它允许熟悉SQL的用户查询数据;
4)可开发自定义的Mapper和Reducer;
5)SQL解析引擎,将SQL语句转移成M/R Job然后在Hadoop执行;
6)Hive就是HDFS的目录/文件.
··Hive的体系结构是什么?
解释器(词法分析)、编译器(生成HQL的执行计划)、优化器(生成最佳的执行计划) 完成HQL的解析和执行过程。生成的查询计划存储在HDFS中,并随后有MapReduce调用执行。
体系结构:
包括:(Command Line Interface, JDBC/ODBC, Web Console, metastore元数据)———> Hive Driver.
··Hive如何与Hadoop HDFS进行相互操作?
**Hive数据与Hadoop中的文件之间的关系?