mapreduce开发 -- 组合式MR作业

摘要: 迭代MapReduce任务主控程序main方法中做循环,当达到某条件终止循环;顺序组合式MapReduce任务多个mapreduce依次执行,前者输出作为后者输入;job.waitForCompletion(true);保证按顺序一个job执行完成才执行下一个; 1 package action.hadoop.chapter5.section6.demo562; 2 3 import org.apache.hadoop.conf.Configuration; 4 import org.apache.hadoop.fs.Path; 5 import org.apache.hadoop.mapr. 阅读全文
posted @ 2014-03-13 12:58 康纳(connor) 阅读(303) 评论(1) 推荐(0) 编辑

mapreduce开发 -- 多文件输出

摘要: 多种方式实现:1. 实现MulitpleOutputFormat类(旧API),如MultipleTextOutputFormat 和 MultpleSequenceFileOutputFormat 是它的两个具体实现。通过自己实现MulitpleOutputFormat类,重载 generateFileNameForKeyValue 方法,达到目的。2. 由于MulitpleOutputFormat类(旧API)被标记为过时,且新的API中不包含这个类,所以自己参考MulitpleOutputFormat实现一个新的MulitpleOutputFormat类。3. 使用 MultipleOu 阅读全文
posted @ 2014-03-12 10:29 康纳(connor) 阅读(1303) 评论(0) 推荐(0) 编辑