我的定位:中高级人才(框架熟练、Java语法精通、数据库会用、Linux会用、中间件会用、有大数据经验!)
开始,我以为自己什么都知道。后来发现,其实我什么都不知道。
摘要: 阅读全文
posted @ 2017-06-25 23:23 想太多先森 阅读(139) 评论(0) 推荐(0) 编辑
摘要: MapReduce内部机制:本地性 什么是数据本地性(data locality) > 如果任务运行在它将处理的数据所在的节点,则称该任务 具有“数据本地性” 本地性可避免跨节点或机架数据传输,提高运行效率 数据本地性分类 > 同节点(node-local) 同机架(rack-local) 其他(o 阅读全文
posted @ 2017-06-25 23:02 想太多先森 阅读(138) 评论(0) 推荐(0) 编辑
摘要: MapReduce 2.0基本架构 Client > 与MapReduce 1.0的Client类似,用户通过Client与YARN 交互,提交MapReduce作业,查询作业运行状态,管理作 业等。 MRAppMaster > 功能类似于 1.0中的JobTracker,但不负责资源管理; 功能包 阅读全文
posted @ 2017-06-25 22:00 想太多先森 阅读(119) 评论(0) 推荐(0) 编辑
摘要: MapReduce实现 Input: 一系列key/value对 用户提供两个函数实现: map(k,v) ->list(k1,v1) reduce(k1, list(v1)) -> v2 (k1,v1) 是中间key/value结果对 Output:一系列(k2,v2)对 MapReduce编程模 阅读全文
posted @ 2017-06-25 14:41 想太多先森 阅读(157) 评论(0) 推荐(0) 编辑
摘要: Hadoop内核 | MapReduce(分布式计算框架) 源于Google的MapReduce论文 > √发表于2004年12月 √Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点 > √良好的扩展性 √高容错性 √适合PB级以上海量数据的离线处理 阅读全文
posted @ 2017-06-25 13:12 想太多先森 阅读(136) 评论(0) 推荐(0) 编辑