Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job

从Physical Plan到Map-Reduce Plan

注：由于我们重点关注的是Pig On Spark针对RDD的运行计划，所以Pig物理运行计划之后的后端參考意义不大，这些部分主要分析流程，忽略实现细节。

入口类MRCompiler，MRCompilier依照拓扑顺序遍历物理运行计划中的节点，将其转换为MROperator，每一个MROperator都代表一个map-reduce job，整个完整的计划存储在MROperPlan类中。当中针对Load和Store操作会做下面特殊处理：

下面是MROperPlan示意图：

JobControlCompiler将Map-Reduce Plan编译成Hadoop Job。

入口方法是：

public JobControl compile(MROperPlan plan, String grpName) throwsJobCreationException

compile方法针对每一个MROperator又会调用getJob方法，生成Hadoop Job:

private Job getJob(MROperPlan plan, MapReduceOper mro, Configuration config,PigContext pigContext) throws JobCreationException。

Pig实现的Mapper&Reducer继承结构例如以下：

当中：

posted @ 2014-07-14 20:15 hrhguanli 阅读(314) 评论(0) 编辑收藏举报

刷新页面返回顶部