摘要: MapReduce的MapTask任务的运行源码级分析这篇文章好不容易恢复了。。。谢天谢地。。。这篇文章讲了MapTask的执行流程。咱们这一节讲解ReduceTask的执行流程。ReduceTask也有四种任务,可参考前一章节对应的内容,至于Reduce Task要从各个Map Task上读取... 阅读全文
posted @ 2014-06-21 13:17 玖疯 阅读(1608) 评论(3) 推荐(0) 编辑
摘要: 影响比较大的有3次:1、一次就是那天下午网站无法响应,官方说是阿里云的问题。。。2、另外两次一样,都是晚上发布博客到首页了(我确定看到已经在首页看到了),第二天来公司一看也可以在首页看到,然后进自己的博客后突然发现,昨晚发布的博客已经成为未发布状态,而且就算是草稿,内容也丢了很多。。。卧槽,我的目前... 阅读全文
posted @ 2014-06-18 11:27 玖疯 阅读(3721) 评论(37) 推荐(14) 编辑
摘要: TaskTracker任务初始化及启动task源码级分析这篇文章中分析了任务的启动,每个task都会使用一个进程占用一个JVM来执行,org.apache.hadoop.mapred.Child方法是具体的JVM启动类,其main方法中的taskFinal.run(job, umbilical)... 阅读全文
posted @ 2014-06-18 00:07 玖疯 阅读(3858) 评论(0) 推荐(1) 编辑
摘要: 在监听器初始化Job、JobTracker相应TaskTracker心跳、调度器分配task源码级分析中我们分析的Tasktracker发送心跳的机制,这一节我们分析TaskTracker接受JobTracker的响应信息后的工作内容。 TaskTracker中的transmitHeartBe... 阅读全文
posted @ 2014-06-14 18:53 玖疯 阅读(2248) 评论(0) 推荐(0) 编辑
摘要: JobTracker和TaskTracker分别启动之后(JobTracker启动流程源码级分析,TaskTracker启动过程源码级分析),taskTracker会通过心跳与JobTracker通信,并获取分配它的任务。用户将作业提交到JobTracker之后,放入相应的数据结构中,静等被分配... 阅读全文
posted @ 2014-06-11 09:34 玖疯 阅读(2004) 评论(2) 推荐(2) 编辑
摘要: 就在刚才,写的东西没保存的了,网站挂了。。。 博客园网站挂了,我写的完蛋了。。。我靠!!! @博客园技术团队 你给个说法吧 博客园 。。。这是我碰到的第二次了……擦 阅读全文
posted @ 2014-06-09 18:26 玖疯 阅读(345) 评论(3) 推荐(0) 编辑
摘要: TaskTracker也是作为一个单独的JVM来运行的,其main函数就是TaskTracker的入口函数,当运行start-all.sh时,脚本就是通过SSH运行该函数来启动TaskTracker的。 TaskTracker是JobTracker和Task之间的桥梁:一方面,从JobTrac... 阅读全文
posted @ 2014-06-04 20:12 玖疯 阅读(1371) 评论(1) 推荐(0) 编辑
摘要: org.apache.flume.sink.AvroSink是用来通过网络来传输数据的,可以将event发送到RPC服务器(比如AvroSource),使用AvroSink和AvroSource可以组成分层结构。它继承自AbstractRpcSink extends AbstractSinkim... 阅读全文
posted @ 2014-05-27 18:55 玖疯 阅读(2309) 评论(0) 推荐(0) 编辑
摘要: 在AbstractConfigurationProvider类中loadSources方法会将所有的source进行封装成SourceRunner放到了Map sourceRunnerMap之中。相关代码如下: 1 Map selectorConfig = context.getSu... 阅读全文
posted @ 2014-05-26 15:48 玖疯 阅读(2608) 评论(1) 推荐(1) 编辑
摘要: 在AbstractConfigurationProvider类中loadSinks方法会调用loadSinkGroups方法将所有的sink和sinkgroup放到了Map sinkRunnerMap之中。 SinkRunner可能对应一个sink也可能对应一个sinkgroup。因为如果配置... 阅读全文
posted @ 2014-05-25 15:10 玖疯 阅读(2951) 评论(0) 推荐(1) 编辑
摘要: mapreduce job提交流程源码级分析(三)中已经说明用户最终调用JobTracker.submitJob方法来向JobTracker提交作业。而这个方法的核心提交方法是JobTracker.addJob(JobID jobId, JobInProgress job)方法,这个addJob... 阅读全文
posted @ 2014-05-22 10:24 玖疯 阅读(1321) 评论(1) 推荐(0) 编辑
摘要: FileChannel是flume一个非常重要的channel组件,非常常用。这个channel非常复杂,涉及的文件更多涉及三个包:org.apache.flume.channel.file、org.apache.flume.channel.file.encryption(加密)、org.apa... 阅读全文
posted @ 2014-05-18 17:59 玖疯 阅读(4569) 评论(2) 推荐(2) 编辑
摘要: 一份数据,两种传输方式进行收集。 一份数据:有多台数据采集节点或者多个数据源 两种方式:一种是从依次多个采集节点或者多个数据源将数据拷贝过来,合并为一个文件 另外一种是多个采集节点或者数据源同时向汇总端发送数据,最后合并为一个文件 两种方式的不同:汇总后的数据都是一样的,但是顺... 阅读全文
posted @ 2014-05-14 19:50 玖疯 阅读(1855) 评论(0) 推荐(0) 编辑
摘要: mapreduce job提交流程源码级分析(二)(原创)这篇文章说到了jobSubmitClient.submitJob(jobId, submitJobDir.toString(), jobCopy.getCredentials())提交job,最终调用的是JobTracker.submit... 阅读全文
posted @ 2014-05-11 14:14 玖疯 阅读(1029) 评论(0) 推荐(1) 编辑
摘要: org.apache.hadoop.mapred.JobTracker类是个独立的进程,有自己的main函数。JobTracker是在网络环境中提交及运行MR任务的核心位置。 main方法主要代码有两句:1 //创建jobTracker对象2 JobTracker t... 阅读全文
posted @ 2014-05-08 18:08 玖疯 阅读(1591) 评论(0) 推荐(0) 编辑