我的定位:中高级人才(框架熟练、Java语法精通、数据库会用、Linux会用、中间件会用、有大数据经验!)
开始,我以为自己什么都知道。后来发现,其实我什么都不知道。

MapReduce04

===================== MapReduce内部机制:本地性 =====================

什么是数据本地性(data locality)-------------------------->

如果任务运行在它将处理的数据所在的节点,则称该任务 具有“数据本地性”

本地性可避免跨节点或机架数据传输,提高运行效率

数据本地性分类 -------------------------->

同节点(node-local) 

同机架(rack-local) 

其他(off-switch)

===================== MapReduce内部机制:推测执行 =====================

作业完成时间取决于最慢的任务完成时间 ---------------------->

一个作业由若干个Map任务和Reduce任务构成

因硬件老化、软件Bug等,某些任务可能运行非常慢 

推测执行机制  ---------------------->

发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度

为拖后腿任务启动一个备份任务,同时运行

谁先运行完,则采用谁的结果

不能启用推测执行机制  ---------------------->

任务间存在严重的负载倾斜 

 特殊任务,比如任务向数据库中写数据

 

 

 

posted @ 2017-06-25 23:02  想太多先森  阅读(138)  评论(0编辑  收藏  举报