Hive

Hive

由facebook开源,最初用于解决海量数据结构化的统计问题,构建在hadoop之上的数据仓库,数据计算使用MR,数据存储使用HDFS,通常用于离线数据处理。

Hive Metastore

Embedded Mode (单用户模式)

Local Mode (多用户模式、元数据库在本机)

Remote Server Mode(元数据为独立的数据库<mysql>)

 

warehouse是hive在hdfs上的一个目录,在hive的配置文件中配置的。上表中说普通表一定会copy到warehouse是错误的,类似下面的建表方式,内布表的数据并不会copy到warehouse中,因为在建表的时候指定了数据的目录‘hdfs://DX2-1:8020/data/SogouQtmp’;但是在删除内部表的时候,相应目录的数据确实会删除掉,而外部表删除的时候是不会删除数据的。

 

基本概念:

 

 

 

partition一般用于离散值得划分,bucket用于连续值得划分,需要预先指定buckets的大小

 

posted @ 2017-03-20 11:45  fisherinbox  阅读(161)  评论(0编辑  收藏  举报