hive 存储

1、hive普通表
hive普通表将数据存储在hive.metastore.warehouse.dir设置的目录中,如果导入本地文件数据,数据会从本地导入到hdfs的目录中。
如果删除表,则将表和数据都删除掉
2、hive外部表
hive外部表则是使用hdfs其他目录的数据来创建,创建表时需要添加EXTERNAL和数据文件位置。
外部表是一个虚链,当删除表时,表中的数据并不会被删除掉,只是将hive元数据删除了。
3、hive分区
hive的分区与常规db分区概念一致,主要目的是为了快速定位数据,减少全表扫描。通过分区可以快速的定位需要查询哪些文件。
4、hive桶
hive的桶是一个数据分片工具,将数据以hash的方式,划分到不同的分片中,例如hash/4,将数据分到四个分片,在验证一些数据时,没必要全表扫描验证,只需要验证一个分片即可。

http://www.iteblog.com/archives/899

http://www.aahyhaa.com/archives/316

posted @ 2016-02-23 11:09  逸新  阅读(226)  评论(0编辑  收藏  举报