Hadoop Hive概念学习系列之hive里的分区（九）

为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。

　分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。

分区是一种根据“分区列”（partition column）的值对表进行粗略划分的机制。Hive中的每个分区对应数据库中相应分区列的一个索引，每个分区对应着表下的一个目录，在HDFS上的表现形式与表在HDFS上的表现形式相同，都是以子目录的形式存在。

　　一个表可以在多个维度上进行分区，并且分区可以嵌套使用。建分区需要在创建表时通过PARTITIONED BY子句指定，例如：

CREATE TABLE logs(
timestamp BIGINT,
line STRING
)
PARTITIONED BY (date STRING,country STRING);

　　在将数据加载到表内之前，需要数据加载人员明确知道所加载的数据属于哪一个分区。

　　使用分区在某些应用场景下能给有效地提高性能，当只需要遍历某一个小范围内的数据或者一定条件下的数据时，它可以有效减少扫描数据的数量，前提是需要将数据导入到分区内。

　　注意：PARTITONED BY子句中定义的列是表中正式的列（分区列），但是数据文件内并不包含这些列。

在Hive里，为什么要分区?

庞大的数据集可能需要耗费大量的时间去处理。在许多场景下，可以通过分区或切片的方法减少每一次扫描总数据量，这种做法可以显著地改善性能。

数据会依照单个或多个列进行分区，通常按照时间、地域或者是商业维度进行分区。比如vido表，分区的依据可以是电影的种类和评级，另外，按照拍摄时间划分可能会得到更一致的结果。为了达到性能表现的一致性，对不同列的划分应该让数据尽可能均匀分布。最好的情况下，分区的划分条件总是能够对应where语句的部分查询条件。

　　Hive的分区使用HDFS的子目录功能实现。每一个子目录包含了分区对应的列名和每一列的值。但是由于HDFS并不支持大量的子目录，这也给分区的使用带来了限制。我们有必要对表中的分区数量进行预估，从而避免因为分区数量过大带来一系列问题。

　　Hive查询通常使用分区的列作为查询条件。这样的做法可以指定MapReduce任务在HDFS中指定的子目录下完成扫描的工作。HDFS的文件目录结构可以像索引一样高效利用。

posted @ 2016-11-26 19:49 大数据和AI躺过的坑阅读(8963) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

大数据和人工智能躺过的坑

Hadoop Hive概念学习系列之hive里的分区（九）

公告