2016年5月25日

shuffle 过程

摘要: Shuffle描述着数据从map task输出到reduce task输入的这段过程(Shuffle的正常意思是洗牌或弄乱)。 以下是官网的流程图: 从最基本的要求来说,我们对Shuffle过程的期望可以有: 完整地从map task端拉取数据到reduce 端。 在跨节点拉取数据时,尽可能地减少对 阅读全文

posted @ 2016-05-25 15:38 罗烨鑫 阅读(854) 评论(0) 推荐(0) 编辑

MapReduce的流程

摘要: 1. Inputformat会从job的INPUT_DIR目录下读入待处理的文件,检查输入的有效性并将文件切分成InputSplit列表。Job实例可以通过setInputFormatClass(Class<? extends InputFormat>)函数来设置所需的inputformat。 2. 阅读全文

posted @ 2016-05-25 14:13 罗烨鑫 阅读(293) 评论(0) 推荐(0) 编辑

导航