玖疯 - 博客园

2014年6月21日

摘要： MapReduce的MapTask任务的运行源码级分析这篇文章好不容易恢复了。。。谢天谢地。。。这篇文章讲了MapTask的执行流程。咱们这一节讲解ReduceTask的执行流程。ReduceTask也有四种任务，可参考前一章节对应的内容，至于Reduce Task要从各个Map Task上读取... 阅读全文

posted @ 2014-06-21 13:17 玖疯阅读(1608) 评论(3) 推荐(0) 编辑

2014年6月18日

我TM快疯了，在博客园开博短短2个月，经历博客园数次故障。。。

摘要：影响比较大的有3次：1、一次就是那天下午网站无法响应，官方说是阿里云的问题。。。2、另外两次一样，都是晚上发布博客到首页了(我确定看到已经在首页看到了)，第二天来公司一看也可以在首页看到，然后进自己的博客后突然发现，昨晚发布的博客已经成为未发布状态，而且就算是草稿，内容也丢了很多。。。卧槽，我的目前... 阅读全文

posted @ 2014-06-18 11:27 玖疯阅读(3721) 评论(37) 推荐(14) 编辑

MapReduce的MapTask任务的运行源码级分析

摘要： TaskTracker任务初始化及启动task源码级分析这篇文章中分析了任务的启动，每个task都会使用一个进程占用一个JVM来执行，org.apache.hadoop.mapred.Child方法是具体的JVM启动类，其main方法中的taskFinal.run(job, umbilical)... 阅读全文

posted @ 2014-06-18 00:07 玖疯阅读(3858) 评论(0) 推荐(1) 编辑

2014年6月14日

TaskTracker任务初始化及启动task源码级分析

摘要：在监听器初始化Job、JobTracker相应TaskTracker心跳、调度器分配task源码级分析中我们分析的Tasktracker发送心跳的机制，这一节我们分析TaskTracker接受JobTracker的响应信息后的工作内容。 TaskTracker中的transmitHeartBe... 阅读全文

posted @ 2014-06-14 18:53 玖疯阅读(2248) 评论(0) 推荐(0) 编辑

2014年6月11日

监听器初始化Job、JobTracker相应TaskTracker心跳、调度器分配task源码级分析

摘要： JobTracker和TaskTracker分别启动之后(JobTracker启动流程源码级分析，TaskTracker启动过程源码级分析)，taskTracker会通过心跳与JobTracker通信，并获取分配它的任务。用户将作业提交到JobTracker之后，放入相应的数据结构中，静等被分配... 阅读全文

posted @ 2014-06-11 09:34 玖疯阅读(2004) 评论(2) 推荐(2) 编辑

2014年6月9日

我屮艸芔茻！！！什么情况，就刚才，百年之功废于一旦！！博客园，你TM想吃翔了吧！

摘要：就在刚才，写的东西没保存的了，网站挂了。。。博客园网站挂了，我写的完蛋了。。。我靠！！！ @博客园技术团队你给个说法吧博客园。。。这是我碰到的第二次了……擦阅读全文

posted @ 2014-06-09 18:26 玖疯阅读(345) 评论(3) 推荐(0) 编辑

2014年6月4日

TaskTracker启动过程源码级分析

摘要： TaskTracker也是作为一个单独的JVM来运行的，其main函数就是TaskTracker的入口函数，当运行start-all.sh时，脚本就是通过SSH运行该函数来启动TaskTracker的。 TaskTracker是JobTracker和Task之间的桥梁：一方面，从JobTrac... 阅读全文

posted @ 2014-06-04 20:12 玖疯阅读(1371) 评论(1) 推荐(0) 编辑

2014年5月27日

Flume-NG源码阅读之AvroSink

摘要： org.apache.flume.sink.AvroSink是用来通过网络来传输数据的，可以将event发送到RPC服务器（比如AvroSource），使用AvroSink和AvroSource可以组成分层结构。它继承自AbstractRpcSink extends AbstractSinkim... 阅读全文

posted @ 2014-05-27 18:55 玖疯阅读(2309) 评论(0) 推荐(0) 编辑

2014年5月26日

Flume-NG源码阅读之SourceRunner，及选择器selector和拦截器interceptor的执行

摘要：在AbstractConfigurationProvider类中loadSources方法会将所有的source进行封装成SourceRunner放到了Map sourceRunnerMap之中。相关代码如下： 1 Map selectorConfig = context.getSu... 阅读全文

posted @ 2014-05-26 15:48 玖疯阅读(2608) 评论(1) 推荐(1) 编辑

2014年5月25日

Flume-NG源码阅读之SinkGroups和SinkRunner

摘要：在AbstractConfigurationProvider类中loadSinks方法会调用loadSinkGroups方法将所有的sink和sinkgroup放到了Map sinkRunnerMap之中。 SinkRunner可能对应一个sink也可能对应一个sinkgroup。因为如果配置... 阅读全文

posted @ 2014-05-25 15:10 玖疯阅读(2951) 评论(0) 推荐(1) 编辑

2014年5月22日

MapReduce job在JobTracker初始化源码级分析

摘要： mapreduce job提交流程源码级分析（三）中已经说明用户最终调用JobTracker.submitJob方法来向JobTracker提交作业。而这个方法的核心提交方法是JobTracker.addJob(JobID jobId, JobInProgress job)方法，这个addJob... 阅读全文

posted @ 2014-05-22 10:24 玖疯阅读(1321) 评论(1) 推荐(0) 编辑

2014年5月18日

Flume-NG源码阅读之FileChannel

摘要： FileChannel是flume一个非常重要的channel组件，非常常用。这个channel非常复杂，涉及的文件更多涉及三个包：org.apache.flume.channel.file、org.apache.flume.channel.file.encryption(加密)、org.apa... 阅读全文

posted @ 2014-05-18 17:59 玖疯阅读(4569) 评论(2) 推荐(2) 编辑

2014年5月14日

linux下gzip压缩同样内容大小不一样

摘要：一份数据，两种传输方式进行收集。一份数据：有多台数据采集节点或者多个数据源两种方式：一种是从依次多个采集节点或者多个数据源将数据拷贝过来，合并为一个文件另外一种是多个采集节点或者数据源同时向汇总端发送数据，最后合并为一个文件两种方式的不同：汇总后的数据都是一样的，但是顺... 阅读全文

posted @ 2014-05-14 19:50 玖疯阅读(1855) 评论(0) 推荐(0) 编辑

2014年5月11日

mapreduce job提交流程源码级分析（三）

摘要： mapreduce job提交流程源码级分析（二）（原创）这篇文章说到了jobSubmitClient.submitJob(jobId, submitJobDir.toString(), jobCopy.getCredentials())提交job，最终调用的是JobTracker.submit... 阅读全文

posted @ 2014-05-11 14:14 玖疯阅读(1029) 评论(0) 推荐(1) 编辑

2014年5月8日

JobTracker启动流程源码级分析

摘要： org.apache.hadoop.mapred.JobTracker类是个独立的进程，有自己的main函数。JobTracker是在网络环境中提交及运行MR任务的核心位置。 main方法主要代码有两句：1 //创建jobTracker对象2 JobTracker t... 阅读全文

posted @ 2014-05-08 18:08 玖疯阅读(1591) 评论(0) 推荐(0) 编辑

玖疯

本来名字要写“疚疯”的，结果一不小心成“玖疯”了。。。

公告