MapReduce编程学习笔记(一)—新旧API

  我使用的hadoop的版本为0.20.2。Hadoop从0.20.0版本加入了新的MapReduce Java API,我之后的学习中没有额外说明,均使用的新的API。下面简单介绍一下新旧API的区别:

  (1)新的API倾向于使用抽象类,而不是接口。新的API中Mapper和Reducer是抽象类。

  (2)新的API在org.apache.hadoop.mapreduce包和子包中,旧版的API放在org.apache.hadoop.mapred中。在编程中一定要注意两个包不要混用或者用错,程序中要正确统一的的import进新包或者旧包。我在刚开始写代码的时候由于没有注意这一点,程序出现过错误,尤其是在刚建map或reduce类以及job的配置时。

  (3)新的API中广泛使用context object,例如MapContext基本上充当这JobConf的OutputCollector和Reporter的角色。

  (4)新的API同时支持“推”和“拉”式的迭代。

  (5)新的API同一了配置。旧API使用JobConf对象进行作业配置,新API中作业配置通过Configuration来完成。

  (6)新API中作业控制执行有Job类来负责,旧版使用JobClient。这也是写代码时要注意的地方。

  更好的理解方式就是找同一个例子用新旧API分别实现,就会很快明白两者的区别。在《Hadoop 权威指南》第2章中有用新旧API写的例子,详细可以参考该书。

参考文档:《Hadoop 权威指南》第2章。

posted @ 2011-09-29 16:16  午后的猫  阅读(898)  评论(0编辑  收藏  举报