摘要:
如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。比如:Sql代码hive>select1fromdual;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorStartingJob=job_201208151631_2040444,TrackingURL=http://jt.dc.sh-wgq.sdo.com:50030/jobdetails.jsp?jobid=job_201208151631_20404 阅读全文
随笔档案-2013年4月26日
hive并行执行job
2013-04-26 15:10 by java20130722, 868 阅读, 收藏,
摘要:
用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率,但不会减少其占用的资源。在hive中也有并行执行的选项。set hive.exec.parallel=true; //打开任务并行执行set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度,默认为8。对于同一个SQL产生的JOB,如果不存在依赖的情况下,将会并行启动JOB,比如:Sql代码from(selectphone,to_phone,substr(to_phone,-1)askeyfromyouni_contact4_lxwwher 阅读全文
记录一下Hive中间和最终结果压缩
2013-04-26 15:08 by java20130722, 487 阅读, 收藏,
摘要:
中间Lzo,最终GzipJava代码setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setmapred.output.compression.type=BLOCK;setmapred.compress.map.output=true;setmapred.map.output.compression.codec=org.apache.hadoop.io.compress.LzoCodec;sethive.exec.compress.o 阅读全文