Hive数据仓库

Hive 是一个基于Hadoop分布式文件系统(HDFS)之上的数据仓库架构，同时依赖于MapReduce。适用于大数据集的批处理，而不适用于低延迟快速查询。

Hive将用户的HiveQL语句转换为MapReduce作业提交到Hadoop集群上，监控执行过程，最后返回结果给用户。由于Hive的元数据(Hive仓库本身的数据信息)需要不断更新、修改、读取，而由于Hadoop存在较高的延时以及作业调度的开销，因此将Hive元数据存在关系型数据库Mysql、derby中。