2012 年 7月 4 日随笔档案 - 要么牛逼,要么滚蛋

2012年7月4日

Hadoop InputFormat浅析 <转>

摘要：在执行一个Job的时候，Hadoop会将输入数据划分成N个Split，然后启动相应的N个Map程序来分别处理它们。数据如何划分？Split如何调度（如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上）？划分后的数据又如何读取？这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发：http://hiphotos.baidu.com/_kouu/pic/item/d7e35c83265e5bcb6c8119de.jpg 1、运行mapred程序；2、本次运行将生成一个Job，于是JobClient向JobTracker申请一个JobID以标识这个Job 阅读全文

posted @ 2012-07-04 11:05 要么牛逼,要么滚蛋阅读(248) 评论(0) 推荐(0) 编辑

要么牛逼,要么滚蛋

Hadoop InputFormat浅析 <转>

导航