Hive
Hive
由facebook开源,最初用于解决海量数据结构化的统计问题,构建在hadoop之上的数据仓库,数据计算使用MR,数据存储使用HDFS,通常用于离线数据处理。
Hive Metastore
Embedded Mode (单用户模式)
Local Mode (多用户模式、元数据库在本机)
Remote Server Mode(元数据为独立的数据库<mysql>)
warehouse是hive在hdfs上的一个目录,在hive的配置文件中配置的。上表中说普通表一定会copy到warehouse是错误的,类似下面的建表方式,内布表的数据并不会copy到warehouse中,因为在建表的时候指定了数据的目录‘hdfs://DX2-1:8020/data/SogouQtmp’;但是在删除内部表的时候,相应目录的数据确实会删除掉,而外部表删除的时候是不会删除数据的。
基本概念:
partition一般用于离散值得划分,bucket用于连续值得划分,需要预先指定buckets的大小