摘要: 随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处... 阅读全文
posted @ 2014-01-22 17:21 南国故人(Wall) 阅读(6713) 评论(2) 推荐(2) 编辑
摘要: 继上篇文章验证Cloudera RM HA功能后,现在开始分析Cloudera RM HA的原理。 设计目标主要目的是为了解决两种问题 计划外的机器挂掉 计划内的如软件和硬件升级等. 架构流程:两个RM, 启动的时候都是standby, 进程启动以后状态未被加载, 转换为active后才会加载相应的状态并启动服务. RM的状态通过配置可以存储在zookeeper, HDFS上。Standby转换到active可以通过命令或开启auto failover。 RM 的作业信息存储在ZK的/rmstore下,Active RM向这个目录写App信息。 RM启动的时候会通过向ZK的/hadoop-ha 阅读全文
posted @ 2014-01-22 11:19 南国故人(Wall) 阅读(2832) 评论(0) 推荐(0) 编辑
摘要: 简介: 最新的Cloudera CDH5.0.0 beta版本已经支持RM的HA, 笔者为此简单验证了RM HA的功能. 后续将继续分析其HA的原理,以及其与社区RM HA的区别.集群部属与RM failover功能性验证硬件准备 四台机器, bj1, bj3, bj4, bj5 准备好相应的环境(包括ssh互通, java环境). 角色说明, bj1为rm1, bj3为rm2, bj4和bj4为slave. Zookeeper部属在bj1上. Hadoop版本准备http://archive.cloudera.com/cdh5/cdh/5/ 下载相应的CDH5版本hadoop-2.2.0-c 阅读全文
posted @ 2014-01-22 09:50 南国故人(Wall) 阅读(1839) 评论(0) 推荐(0) 编辑