[转载]Hadoop InputFormat浅析
摘要:原文地址:http://hi.baidu.com/_kouu/blog/item/3f8809eb8ac4a9cfd539c902.html在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。MapReduce任务流程:1、运行mapred程序;2、本次运行将生成一个Job,于是JobClient向JobTracker申请一个JobID以标识这个Job;3、JobClie
阅读全文
posted @ 2012-04-27 19:11