简单,可复制

点点滴滴,尽在文中

  :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

记录下工作中,使用hive sql遇到的问题,和大家共享。

 

某个字段条件过多,查询条件失效

select * from login where dt='20130101' and (ver !='3.1' or ver !='3.2' or ver != '4.0' or ver != '5.2');

备注:感谢 杨庆荣的指导,这里笔误,其实修改为如下的sql,功能可以实现,该bug纯属作者的错误:

select * from login where dt='20130101' and (ver !='3.1' and ver !='3.2' and ver != '4.0' and ver != '5.2');

 

这个语句的目的是从一个用户登陆表中,查询20130101当天,版本不是3.1,3.2,4.0,5.2的登陆用户记录。但是,在hive0.90执行,最后返回的是20130101当天全部的登陆用户记录,后面的查询条件看起来是被忽略了。这里看起来同一个字段做这种多个!=或者=的条件查询,过多会失效。

于是修改了语句,如下:

select * from login where dt=20130101 and !array_contains(split('3.1,3.2,4.0,5.2',','),ver);

语句如预期返回查询结果。

 

字查询中有多于一个where语句,只有一个where语句能生效

select url,country,pv,ip from
      (select url,country,count(*) as pv,count(distinct ip) as ip from web_site where dt='20130101'  group by url,country order by url,pv desc) 
      order_area
where row_number(url) <= 100;

该语句从一个网站的页面点击明细表web_site,查询20130101当天,每个子域名url下,pv排名前一百的地区。但是第一个where语句where dt='20130101'可以生效,第二个where语句where row_number(url)<=100不能生效。通过explain语句查询该语句的任务计划,确定第二个where语句没有生效执行,最后返回了每个字域名下全部地区的pv。

该bug在hive 0.81可以出现,不过升级了hive到0.91,问题可以解决。

 

hive通过外部表访问hbase的表,使用insert into语句的问题

hive通过建立外部表可以访问hbase的表,但是从外部表,使用insert into语句,多次插入数据到一个hive内部表,期望数据是追加的,但是数据每次都是被overwrite的。

INSERT INTO TABLE login_user PARTITION (dt='20130101') select uid FROM pc_login_user_20130101;
INSERT INTO TABLE login_user PARTITION (dt='20130101') select uid FROM mobile_login_user_20130101;

pc_login_user_20130101和mobile_login_user_20130101都是hive访问hbase的外部表,代表20130101当天的电脑登陆用户和手机登陆用户,预期是把手机登陆用户的数据追加插入到hive表login_user。但是实际过程中发现insert into每次执行都是overwrite的,所以结果表里只有手机的登陆用户数据。

该问题在hive0.90+hbase0.941发现。

 

hive产生动态分区太多导致的问题

较多的动态分区会导致job出现以下情况:

 

org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/hive-maintain/hive_2012-11-28_22-39-43_810_1689858262130334284/_task_tmp.-ext-10002/part=33436268/_tmp.000004_0 File does not exist. Holder DFSClient_attempt_201211250925_9859_m_000004_0 does not have any open files.

 

解决方案:

 

加大动态分区数即可,下面是在当前session下设置。

 

SET hive.exec.max.dynamic.partitions=100000;
SET hive.exec.max.dynamic.partitions.pernode=100000;

 

 

hive删除包含较多分区表有错误

对包含很多分区的表做删除操作(drop table)时,报了OutOfMemory的异常,在hive中无法删除。

通过查找资料发现,是个BUG。据说在0.10.0版本进行了修复,详见:https://issues.apache.org/jira/browse/HIVE-2907

解决方案:通过对此issue的了解,因为hive默认的heap大小为256MB,我将启动RunJar时,heap大小设置为512MB,这样就可以解决此问题。

  

posted on 2013-01-08 11:34  ggjucheng  阅读(11942)  评论(9编辑  收藏  举报