hive 空值判断
hive中空值判断基本分两种
一、NULL 与 \N
hive在底层数据中如何保存和标识NULL,是由 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 参数控制的
比如:
1、设置 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N');
则:底层数据保存的是'\N',通过查询显示的是'NULL'
这时如果查询为空值的字段可通过 语句:a is null 或者 a='\N'
2、测试
hive> create table test(id int,name string);
hive> insert into table test(1, 'yjt');
hive> alter table test set serdeproperties("serialization.null.format"='\N');
hive> insert into table test values(2, 'yjl');
hive> insert into table test values(3, NULL);
hive> select * from test;
OK
test.id test.name
1 yjt
2 yjl
3 NULL
hive> select * from test where name is NULL;
OK
test.id test.name
3 NULL
hive> select * from test where name = '\\N'; #修改存储空值时为'\N',但是在查询的时候,不能使用'\\N'的方式判断
OK
test.id test.name
Time taken: 0.182 seconds
2.设置 alter tablename SET SERDEPROPERTIES('serialization.null.format' = 'NULL');
则:底层数据保存的是'NULL',通过查询显示的是'NULL'
这时如果查询为空值的字段可通过 语句:a is null 或者 a='NULL'
hive> alter table test set serdeproperties("serialization.null.format"='NULL');
hive> select * from test ;
OK
test.id test.name
1 yjt
2 yjl
3 N #以前存储的NULL值变成了 'N'
查询
hive> select * from test where name = 'N';
OK
test.id test.name
3 N
重新插入空值测试
hive> insert into table test values(6, NULL);
hive> select * from test;
OK
test.id test.name
1 yjt
2 yjl
3 N
4 \N
5
6 NULL
Time taken: 1.182 seconds, Fetched: 6 row(s)
hive> select * from test where name is null; #通过is null 的方式可以查到
OK
test.id test.name
6 NULL
Time taken: 0.146 seconds, Fetched: 1 row(s)
hive> select * from test where name = 'null';
OK
test.id test.name
Time taken: 0.151 seconds
hive> select * from test where name = 'NULL'; #这种方式不能查询到存储的空值
OK
test.id test.name
Time taken: 0.171 seconds
hive>
总结 最好还是使用is null判断
二、'' 与 length(xx)=0
'' 表示的是字段不为null且为空字符串,此时用 a is null 是无法查询这种值的,必须通过 a='' 或者 length(a)=0 查询
hive>
>
> select * from test where length(name) = 0;
OK
test.id test.name
5
Time taken: 0.199 seconds, Fetched: 1 row(s)
hive> select * from test where name = '';
OK
test.id test.name
5
Time taken: 0.182 seconds, Fetched: 1 row(s)
总结,如果是空字符串,可以使用=或者length方式判断
记录学习和生活的酸甜苦辣.....哈哈哈