摘要: 一、JobTracker功能 1、作业控制 2、资源管理 二、启动分析 1、重要对象初始化 2、各种线程 3、作业恢复 三、心跳接收与应答 1、状态更新 2、下达命令 四、Job 与 Task 运行时信息保护 1、作业描述 2、JobInProgress 3、TaskInprogress 4、Job 阅读全文
posted @ 2015-01-20 22:45 lihui1625 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 一、Job提交过程 1、执行shell 2、Job 文件上传 3、产生 InputSplit 文件 4、作业提交到 JobTracker 二、作业初始化过程 1、Setup Task 2、Map Task 3、Reduce Task 4、Cleanup Task 三、DistributedCache 阅读全文
posted @ 2015-01-20 22:34 lihui1625 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 一、RPC 四个部分 1、序列化层:传递的参数都实现Writable 2、函数调用层:采用反射和动态代理 3、网络传输层:基于Socket 4、服务器端处理框架:基于Reactor模式的事件驱动I/O模型 二、反射与动态代理 java.lang.reflect.Proxy java.lang.ref 阅读全文
posted @ 2015-01-20 22:23 lihui1625 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 一、文件切分块大小 splitSize = max (minSize, min(maxSize,blockSize)) 其中: minSize 参数mapred.min.split.size指定 maxSize 参数mapred.max.split.size指定 blockSize 块大小,默认64 阅读全文
posted @ 2015-01-20 22:04 lihui1625 阅读(87) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce 架构 HDFS 的基本单位:block,默认64M。 TaskTracker 上的计算资源单位:slot (CPU、内存等) MapReduce 的处理单位:split (每个split交给1个Map Task,split 包含了数据起始位置、数据长度、数据所在点等元数据信息 阅读全文
posted @ 2015-01-20 21:46 lihui1625 阅读(112) 评论(0) 推荐(0) 编辑