hive动态分区和混合分区
各位看官,今天我们来讨论下再Hive中的动态分区和混合分区方面的一些知识点以及相关的一些问题。
前面我们已经讲过管理表和外部表的一般分区的一些知识点,对于需要对表创建很多的分区,那么用户就需要些很多的SQL代码,举例:
比如我创建了一张分区表emp,需要 将分区表employees中的某些区数据按分区导入到表emp中,如果我需要导入的分区有上百个,那么就需要写上百个INSERT ...SELECT ...语句。如下:
FROM jimdb.employees
INSERT OVERWRITE TABLE emp
PARTITION(province='guangdong',city='shenzhen')
SELECT name,salary,subordinates,deductions,address
WHERE province='guangdong' AND city='shenzhen'
INSERT OVERWRITE TABLE emp
PARTITION(province='hainan',city='haikou')
SELECT name,salary,subordinates,deductions,address
WHERE province='hainan' AND city='haikou'
INSERT OVERWRITE TABLE emp
PARTITION(province='zhejiang',city='hangzhou')
SELECT name,salary,subordinates,deductions,address
WHERE province='zhejiang' AND city='hangzhou'
INSERT OVERWRITE TABLE emp
PARTITION(province='shandong',city='qingdao')
SELECT name,salary,subordinates,deductions,address
WHERE province='shandong' AND city='qingdao'
..........
..........
.........
一. Hive提供了一个动态分区的功能,其可以基于查询参数推断出需要创建的分区名称。而之前我们一直使用的这种叫做静态分区。
举例1:假如我希望创建一张与employees表结构一样的表emp,如何将employees的数据按分区导入到emp中呢。
hive (default)> CREATE TABLE IF NOT EXISTS emp LIKE jimdb.employees;
OK
Time taken: 2.387 seconds
为表emp中插入数据;
hive (default)> set hive.exec.dynamic.partition.mode=nostrict;
hive (default)> INSERT OVERWRITE TABLE emp
> PARTITION(province,city)
> SELECT name,salary,subordinates,deductions,address,province,city
> FROM jimdb.employees;
Query ID = hadoop_20180617092034_4fd7e0ee-0916-4b85-91e1-1d569110c3e7
.........
........
Stage-Stage-1: HDFS Read: 30511582 HDFS Write: 31358028 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK
name salary subordinates deductions address province city
Time taken: 16.077 seconds
Hive是根据select语句最后的两个列来确定分区字段province,city的值。目标表的分区字段名称可以与源表的分区字段名称不一样。
二.混合分区
由于在动态分区中目标表的分区是根据源表的分区字段的值来确定的,如果由于用户错误的操作,导致目标表创建了非常多的小分区,这会导致集群性能的下降,因为管理分区是需要HDFS 的namenode进行管理。如果存在非常多的分区,那么最终会超出NameNode对系统云数据信息的处理能力。因为NameNode必须要将所有的系统文件的元数据信息保存在内存中。理想的分区方案是不应该导致太多的分区和文件夹目录,并且每个目录下的文件应该足够得大,应该是文件系统中块的若干倍。
混合分区就是混合使用静态分区和动态分区来创建目标表的分区,但是静态分区的字段必须放到动态分区字段的前面。由于混合分区部分的限制了分区的 键的值,可以有效 控制分区的数目不会过多,从而错误的导致创建很多的分区。
比如我希望给emp表中加入shandong与zhejiang两个省份的数据,可以使用如下的混合分区的方法进行数据的导入:
hive (default)> FROM jimdb.employees
> INSERT OVERWRITE TABLE emp
> PARTITION(province='shandong',city)
> SELECT name,salary,subordinates,deductions,address,city
> WHERE province ='guangdong'
> INSERT OVERWRITE TABLE emp
> PARTITION(province='zhejiang',city)
> SELECT name,salary,subordinates,deductions,address,city
> WHERE province ='zhejiang';
Query ID = hadoop_20180617094311_8a38bc83-a6cb-40a9-87d5-f4c4f66364d2
Total MapReduce CPU Time Spent: 0 msec
.........
.........
OK
name salary subordinates deductions address city
Time taken: 11.95 seconds
可以看到一个规律,就是说在目标表中对分区中限定值得静态分区键的那一列,目标表就就认为这一列不属于需要插入的列值,因此在select语句中需要将这一列去除掉,不然就会报错。比如我限定了province='shandong',那么select选择的列中就取出掉province这一列。如下面这种方法就会报错:
hive (default)>
> INSERT OVERWRITE TABLE emp
> PARTITION(province='guangdong',city)
> SELECT name,salary,subordinates,deductions,address,province,city
> FROM jimdb.employees
> WHERE province ='guangdong';
FAILED: SemanticException [Error 10044]: Line 1:23 Cannot insert into target table because column number/types are different 'city': Table insclause-0 has 6 columns, but query has 7 columns.
hive (default)> INSERT OVERWRITE TABLE emp
> PARTITION(province='guangdong',city)
> SELECT *
> FROM jimdb.employees
> WHERE province ='guangdong';
FAILED: SemanticException [Error 10044]: Line 1:23 Cannot insert into target table because column number/types are different 'city': Table insclause-0 has 6 columns, but query has 7 columns.
这两个语句都是同样的错误,目标表emp由于在分区上限定了province,因此在插入数据时,不将这一列作为伪列看待,因此只有6列,而select语句中显式的将两个分区键放到最后,或者select * 都会将分区键放到正常列的最后面,这样就会存在7个列,因此插入数据时报错。
三.动态分区的相关参数
在Hive中,针对动态分区有几个参数需要注意。
1.hive.exec.dynamic.partition,这个参数是开启动态分区功能,默认是false不开启。
2. hive.exec.dynamic.partition.mode 这个参数是动态分区模式,缺省值是strict,表示动态分区前面必须有静态分区字段,不能只有动态分区,可以设置为nostrict,表示允许所有分区都是动态的。
3. hive.exec.dynamic.partitions.pernode ,缺省值是100,指每个mapper或reducer可以创建的最大动态分区个数,如果某个mapper或者reducerchangshi 创建大于这个数目的分区,那么就会报错。
4. hive.exec.max.dynamic.partitions 缺省值是+1000,指的是一个动态分区创建语句可以创建的最大分区数目,如果超过这个数目就会抛出一个致命错误。
5. hive.exec.max.created.files 缺省值是100000,全局 可以创建的最大文件个数。
四.当动态分区模式是strict时,如果创建动态分区,会抛出错误。
hive (default)> set hive.exec.dynamic.partition.mode=strict;
hive (default)> INSERT OVERWRITE TABLE emp
> PARTITION(province,city)
> SELECT name,salary,subordinates,deductions,address,province,city
> FROM jimdb.employees;
FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict