Hive 报错

hadoop hive任务失败，原因是GC overhead limit exceeded (OOM)

GC Overhead Limit Exceeded error是java.lang.OutOfMemoryError家族的一员，表示JVM内存被耗尽。

OutOfMemoryError是java.lang.VirtualMachineError的子类，当JVM资源利用出现问题时抛出，更具体地说，这个错误是由于JVM花费太长时间执行GC且只能回收很少的堆内存时抛出的。

根据Oracle官方文档，默认情况下，如果Java进程花费98%以上的时间执行GC，并且每次只有不到2%的堆被恢复，则JVM抛出此错误。换句话说，这意味着我们的应用程序几乎耗尽了所有可用内存，垃圾收集器花了太长时间试图清理它，并多次失败。

原文链接：https://developer.aliyun.com/ask/59564?spm=a2c6h.13159736

Hadoop任务可能引起OOM错误的原因有很多。一般情况下，首先检查是否重设了hadoop参数：mapred.child.java.opts，一般设为-Xmx2000m，即使用2G的最大堆内存。
Hive中可能引起OOM的原因及相关的修复设定如下表所示：

原因：map aggregation
map aggregation使用哈希表存储group by/distinct key和他们的aggregation结果。
aggregate结果字段过多，或group by/distinct key的散度过大，可能导致内存占用过多。
修复：
减小hive.map.aggr.hash.percentmemory设定（默认为0.5，即使用50%的child堆内存）。

原因：join
join需要cache所有相同join key的非驱动表的记录
修复：
检查是否把大表设定为驱动表（大表写在join的最右边）。
如果已经设定正确的驱动表，减小hive.join.emit.interval设定（默认为1000，即每1000行的join结果集输出一次）。

原因：map join
map join需要cache全部小表的所有数据
修复：
检查小表是否足够小。如果小表超过1G，考虑不要使用map join。

--加了以下参数解决了问题

set mapreduce.map.java.opts=-Xmx3072m;
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=16;
set hive.exec.compress.output=true;
set hive.map.aggr.hash.percentmemory=0.3;
set hive.join.emit.interval=600;
set hive.auto.convert.join = false;

Hive Runtime Error while processing row at

--加以下参数
set hive.vectorized.execution.enabled=false;
set hive.vectorized.execution.reduce.enabled=false;

FAILED: Class com.shield.xlab.hive.sql.UDFsha not found

jar包名被写错，UDFSha

posted @ 2019-11-27 14:01 时光快照阅读(1195) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

时光一去不复返

你明天能站的高度取决于今天的付出

Hive 报错

hadoop hive任务失败，原因是GC overhead limit exceeded (OOM)

Hive Runtime Error while processing row at

FAILED: Class com.shield.xlab.hive.sql.UDFsha not found

公告