2012年7月13日

Hadoop TaskScheduler浅析 <转>

摘要: TaskScheduler, 顾名思义,就是MapReduce中的任务调度器。在MapReduce中,JobTracker接收JobClient提交的Job,将它们按 InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务。然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务。具体应该分派一些什么样的任务给这台TaskTracker,这就是TaskScheduler所需要考虑的事情。TaskScheduler工作在JobTracker上。在JobTracker启动时,根据配置“mapred 阅读全文

posted @ 2012-07-13 14:57 要么牛逼,要么滚蛋 阅读(474) 评论(0) 推荐(0) 编辑

Hadoop OutputFormat浅析 <转>

摘要: 在 Hadoop中,OutputFormat和InputFormat是相对应的两个东西。相比于InputFormat,OutputFormat似乎没 有那么多细节。InputFormat涉及到对输入数据的解析和划分,继而影响到Map任务的数目,以及Map任务的调度(见《Hadoop InputFormat浅析》)。而OutputFormat似乎像其字面意思那样,仅仅是完成对输出数据的格式化。对于输出数据的格式化,这个应该没什么值得多说的。根据需要,OutputFormat爱把输出写成什么格式就写成什么格式、爱把输出写到数据库就写到数据库、爱把输出通过网络发给其他服务就发给其他服务...不过,O 阅读全文

posted @ 2012-07-13 10:31 要么牛逼,要么滚蛋 阅读(2079) 评论(0) 推荐(0) 编辑

导航