mapreduce的初识
MapReduce进程
一个完整的mapreduce程序在分布式运行时有三类实例进程:
1)MrAppMaster:负责整个程序的过程调度及状态协调
2)MapTask:负责map阶段的整个数据处理流程
3)ReduceTask:负责reduce阶段的整个数据处理流程
理论(后续补齐):
MapReduce理论
Writable序列化
InputFormat数据切片
MapTask工作机制
Shuffle机制
ReduceTask工作机制
OutputFormat自定义
MapReduce数据压缩
MapReduce内置计数器context.getCounter
MapReduce与yarn
MapReduce参数优化
资源相关参数
容错相关参数