摘要: 当我们需要把数据存储在分布式文件系统HDFS,由MapReduce计算移动到存储有部分数据的各台机器上,下面我们看看具体过程。 首先上一点干货: MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息。Hadoop将作业分布称若干小任务(task)来执行,其中包括两类任务:map任务(计算)和reduce(聚合)任务; 有两类节点控制着作业... 阅读全文
posted @ 2013-08-16 22:32 潜伏的蛟龙 阅读(1093) 评论(0) 推荐(0) 编辑
摘要: Hadoop 的版本0.20包含一个新的java MapReduce API,我们也称他为上下文对象(context object)。新的API在类型虽然不兼容先前的API,但是更容易扩展。 新增的API和旧的API之间的不同点: 1、 新的API倾向于使用抽象类,而不是接口,是为了更容易扩展。 例如:可以不需要修改类的实现而在抽象类中添加一个方法。在新的API中,mapper和reducer现在... 阅读全文
posted @ 2013-08-16 18:29 潜伏的蛟龙 阅读(1905) 评论(0) 推荐(0) 编辑