随笔档案「2013年4月26日」：hiveQL 本地mapreduce ... - java20130722

hiveQL 本地mapreduce

2013-04-26 15:42 by java20130722, 297 阅读, 收藏,

摘要：如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。。比如：Sql代码hive>select1fromdual;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorStartingJob=job_201208151631_2040444,TrackingURL=http://jt.dc.sh-wgq.sdo.com:50030/jobdetails.jsp?jobid=job_201208151631_20404 阅读全文

0 Comment

hive并行执行job

2013-04-26 15:10 by java20130722, 892 阅读, 收藏,

摘要：用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率，但不会减少其占用的资源。在hive中也有并行执行的选项。set hive.exec.parallel=true; //打开任务并行执行set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度，默认为8。对于同一个SQL产生的JOB,如果不存在依赖的情况下，将会并行启动JOB，比如：Sql代码from(selectphone,to_phone,substr(to_phone,-1)askeyfromyouni_contact4_lxwwher 阅读全文

0 Comment

记录一下Hive中间和最终结果压缩

2013-04-26 15:08 by java20130722, 491 阅读, 收藏,

摘要：中间Lzo,最终GzipJava代码setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setmapred.output.compression.type=BLOCK;setmapred.compress.map.output=true;setmapred.map.output.compression.codec=org.apache.hadoop.io.compress.LzoCodec;sethive.exec.compress.o 阅读全文

0 Comment

java20130722