2014年8月24日

hive 分配map数过少导致任务执行慢

摘要: 数据表大概150M,但是只有几个字段,导致行数特别多,当使用正则表达式去匹配时执行较慢。解决思路:增大map数; //设置reduce数为150,将原表分成150份,map数无法直接设置,因为和输入文件数和文件大小等几个参数决定set mapred.reduce.tasks = 150;//在map... 阅读全文

posted @ 2014-08-24 14:00 a_badegg 阅读(2827) 评论(0) 推荐(0) 编辑

利用mapreduce清洗日志内存不足问题

摘要: package com.libc;import java.io.IOException;import java.io.UnsupportedEncodingException;import java.util.HashMap;import java.util.Iterator;import java... 阅读全文

posted @ 2014-08-24 11:37 a_badegg 阅读(625) 评论(0) 推荐(0) 编辑

导航