摘要: 概述前面已经分析了RM的状态机,接下来将分析NM的状态机,NM状态机包括Container,Application,LocalizedResource三个。首先我们分析Application的状态机。NodeManager维护着本节点执行的Application,从图1中可以看出其维护了user,containers,AppId和状态信息。Application的实现类为ApplicationImpl。图2展示了Application的状态机。图1 Application接口图2 Application状态机图Application状态转换与解释NEW,在NM中,ContainerManage 阅读全文
posted @ 2014-03-10 09:37 南国故人(Wall) 阅读(1781) 评论(0) 推荐(1) 编辑
摘要: 原文见 http://xiguada.org/hadoop-2-x-compile/ 这些问题是2013年初整理的,不过到目前为止,即使最新的hadoop2.0系列,编译总体上变化不大,因此还能适用。 执行命令: mvn package -Pdist,native -DskipTests -Dtar 阅读全文
posted @ 2014-02-23 20:43 南国故人(Wall) 阅读(4587) 评论(0) 推荐(0) 编辑
摘要: 原文链接 http://xiguada.org/yarn_some_question/ ‎ 1. NodeManager是如何Kill掉Container的呢? 答,在DefaultContainerExecutor中, a. 使用命令行kill一个app后,ContainerLaunch中的han 阅读全文
posted @ 2014-02-23 20:33 南国故人(Wall) 阅读(5946) 评论(0) 推荐(0) 编辑
摘要: 原文 http://xiguada.org/yarn_state_picture/ 在Hadoop2.0系列的版本里,采用了状态机的方式处理ResourceManager,NodeManager,MapReduce中状态的变迁。那如何生成相应的状态机图呢?其实社区已经为我们提供了生成状态机图的方法, 阅读全文
posted @ 2014-02-23 20:26 南国故人(Wall) 阅读(495) 评论(0) 推荐(0) 编辑
摘要: RM状态存储与还原机制详解转载请注明原始链接http://www.cnblogs.com/shenh062326/p/3562199.html。摘要 本文基于Apache Hadoop社区最新release版本2.3.0编写,社区从2.3.0开始支持ResourceManager的HA,已经实现的功能包括RM状态信息的存储与还原,客户端(clientToRM, AMToRM, NMToRM)实现RPC重试机制,增加Active与Standby RM角色,支持手动切换Active与Standby RM,还不支持RM的热备(自动主备切换),不支持RM切换后正在运行运行的Container不被Ki. 阅读全文
posted @ 2014-02-23 17:53 南国故人(Wall) 阅读(2815) 评论(4) 推荐(0) 编辑
摘要: 云梯开发人员在云梯Yarn集群的搭建和维护过程中做了许多工作,本文选择这期间部分较为典型的问题,通过对这些问题的分析和解决方案,为大家分享分布式系统问题调查的经验。调查的问题1. 2013年初引入社区0.23时,调查ResourceManager运行过程汇总突然挂掉的问题现象:监控报警,线上运行的RM突然挂掉,RM异常日志如下,2012-12-17 17:20:28,294 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error in handling event type APP_REMOVED t 阅读全文
posted @ 2014-02-15 20:09 南国故人(Wall) 阅读(3943) 评论(1) 推荐(1) 编辑
摘要: [RM HA3] Zookeeper在RM HA的应用RM HA(ResourceManager HighAvailability)中使用Zookeeper的地方在ZKRMStateStore和ZKFailoverController,ZKRMStateStore继承于抽象类RMStateStore,从名字上可以看出RMStateStore是存储RM状态的存储器,ZKRMStateStore是其中的一种实现——使用Zookeeper存储RM状态。抽象类ZKFailoverController通过Zookeeper实现Master的Auto Failover,社区最新版本2.3只用在HDFS上控 阅读全文
posted @ 2014-02-13 11:39 南国故人(Wall) 阅读(1767) 评论(0) 推荐(0) 编辑
摘要: 1. White Elephant是LinkedIn开源的一套Hadoop 作业日志收集器和展示器,使用mapreduce作业解析jobhistory日志,得到每个用户使用的资源情况,并通过网页展示。基于 Hadoop 1.0.3,Hadoop 2.0不支持。2. hadoop-job-analyzer解析Hadoop作业,收集用户指定的信息,并把输出发送给监控以可视化方式展示和分析,也是基于hadoop1.0,不支持hadoop2.0。3.Replephant是一个Clojure库,执行perl脚本分析Hadoop集群使用情况并产生使用报告。4.hRavenTwitter开源,收集Hadoo 阅读全文
posted @ 2014-02-12 20:18 南国故人(Wall) 阅读(848) 评论(0) 推荐(0) 编辑
摘要: White Elephant 是一个Hadoop日志收集器和展示器,它提供了用户角度的Hadoop集群可视化。White Elephant 是全球最大的职业社交网站Linkedin开发的一套分析Hadoop作业日志的系统,完全开源。代码在GitHub上的链接https://github.com/linkedin/white-elephant。不过White Elephant当前只支持hadoop1.0系列的jobhistory解析,暂时不支持hadoop2.0系列的版本。 快速入门你可以在GitHub上的White Elephant项目check out代码,或者下载最新的snapshot版本 阅读全文
posted @ 2014-02-11 18:00 南国故人(Wall) 阅读(3773) 评论(0) 推荐(0) 编辑
摘要: 随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处... 阅读全文
posted @ 2014-01-22 17:21 南国故人(Wall) 阅读(6713) 评论(2) 推荐(2) 编辑