摘要: 这篇文章记录一下自己对Hadoop输入格式的理解。详细参考hadoop API org.apache.hadoop.mapreduce 以及org.apache.hadoop.mapreduce.input.lib 包。 图一:InputFormat类结构 以上是hadoop输入部分用到的类的结构层次图(注:改图是根据旧版API画,类所在的包显示的均是就版API中所在,我在学习时均使用新版API,贴出此图为了直观的理解)。InputFormat(org.apache.hadoop.mapreduce): 从上图可以看出,最上层是一个InputFormat接口,它描述MapReduc... 阅读全文
posted @ 2011-09-29 22:35 午后的猫 阅读(3669) 评论(0) 推荐(0) 编辑
摘要: 我使用的hadoop的版本为0.20.2。Hadoop从0.20.0版本加入了新的MapReduce Java API,我之后的学习中没有额外说明,均使用的新的API。下面简单介绍一下新旧API的区别: (1)新的API倾向于使用抽象类,而不是接口。新的API中Mapper和Reducer是抽象类。 (2)新的API在org.apache.hadoop.mapreduce包和子包中,旧版的API放在org.apache.hadoop.mapred中。在编程中一定要注意两个包不要混用或者用错,程序中要正确统一的的import进新包或者旧包。我在刚开始写代码的时候由于没有注意这一点,程序出... 阅读全文
posted @ 2011-09-29 16:16 午后的猫 阅读(899) 评论(0) 推荐(0) 编辑