打赏

3 weekend110的shuffle机制 + mr程序的组件全貌

前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。

有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没

 

 

缓存,分组,排序,转发,这些都是mr的shuffle。

Soga

 

 

现在。来观察map阶段有几个yarnchild,reduce阶段有几个yarnchild。对应地,就是有多少个map的并发任务数,有多少个reduce的并发任务数

以上我,查看有多少个map并发任务数

 

查看map并发任务数之后,进程被回收。

 

查看reduce并发任务数

 

Reduce的Task进程被回收

 

 

总的来说,

生成个Runjar  ->  生成个MRAppMaster(运行map任务) -> 查看map并发任务数 ->

Map的Task进程被回收  ->查看reduce并发任务数 -> Reduce的Task进程被回收 –> 

 

以上是/flow/data

其实啊,前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。

有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没(是在分片中控制的)。

 

下面,来将在/flow/data中,分片控制map的并发任务数

Soga,原来是如此

 

 

缓存,分组,排序,转发,这些都是mr的shuffle。

Soga

 

 

 

 

 

 

以上是weekend110的shufle机制,部分在前面都讲了。

 

 

 

 

 

下面是weekend110的mr程序的组件全貌

 

 

 

 

往数据库、HBase、ftp、hdfs(默认是往hdfs写),文件,,,用户不用管,特推出mr程序的组件------OutputFormat

 

 

 

 

 

比如,对于图片,视频,,,这些,InputFormat,就不能了。

 

 

可以看到,DBInputFormat是去数据库里读,

 

可以看到,DBOutputFormat是往数据库里写,

 

 

这里,只是想看下InputFormat和OutputFormat

 

恢复

 

posted @ 2016-09-22 16:39  大数据和AI躺过的坑  阅读(447)  评论(0编辑  收藏  举报