笔记:深入解析MapReduce架构设计与实现原理 第3章 MapReduce编程模型

一、文件切分块大小

splitSize = max (minSize, min(maxSize,blockSize))

其中:

minSize 参数mapred.min.split.size指定

 

maxSize 参数mapred.max.split.size指定

blockSize 块大小,默认64M

即不再考虑用户设定的Map Task个数


二、Mapper、Reducer 解析

特殊的Mapper/Reducer:

ChainMapper / ChainReducer:链

IdentityMapper / IdentityReducer:不处理直接输入

InvertMapper:交互key、value

RegexMapper:正则表达式

TokenMapper:拆分字符串

LongSumRducer:累加


三、Hadoop工作流

1、JobControl

2、ChainMapper / ChainReducer

3、Pig、Hive、Oozie、Azkakan










posted @ 2015-01-20 22:04  lihui1625  阅读(87)  评论(0编辑  收藏  举报