2014 年 1月 22 日随笔档案 - 南国故人（Wall）

2014年1月22日

摘要：随着大数据的发展，人们对大数据的处理要求也越来越高，原有的批处理框架MapReduce适合离线计算，却无法满足实时性要求较高的业务，如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架，通过它提供的丰富的API、基于内存的高速执行引擎，用户可以结合流式、批处... 阅读全文

posted @ 2014-01-22 17:21 南国故人（Wall）阅读(6713) 评论(2) 推荐(2) 编辑

[RM HA 2] Hadoop 2.0 ResourceManager HA原理

摘要：继上篇文章验证Cloudera RM HA功能后，现在开始分析Cloudera RM HA的原理。设计目标主要目的是为了解决两种问题计划外的机器挂掉计划内的如软件和硬件升级等. 架构流程：两个RM, 启动的时候都是standby, 进程启动以后状态未被加载, 转换为active后才会加载相应的状态并启动服务. RM的状态通过配置可以存储在zookeeper, HDFS上。Standby转换到active可以通过命令或开启auto failover。 RM 的作业信息存储在ZK的/rmstore下，Active RM向这个目录写App信息。 RM启动的时候会通过向ZK的/hadoop-ha 阅读全文

posted @ 2014-01-22 11:19 南国故人（Wall）阅读(2832) 评论(0) 推荐(0) 编辑

[RM HA 1] Cloudera CDH5 RM HA功能验证

摘要：简介: 最新的Cloudera CDH5.0.0 beta版本已经支持RM的HA, 笔者为此简单验证了RM HA的功能. 后续将继续分析其HA的原理,以及其与社区RM HA的区别.集群部属与RM failover功能性验证硬件准备四台机器, bj1, bj3, bj4, bj5 准备好相应的环境(包括ssh互通, java环境). 角色说明, bj1为rm1, bj3为rm2, bj4和bj4为slave. Zookeeper部属在bj1上. Hadoop版本准备http://archive.cloudera.com/cdh5/cdh/5/ 下载相应的CDH5版本hadoop-2.2.0-c 阅读全文

posted @ 2014-01-22 09:50 南国故人（Wall）阅读(1839) 评论(0) 推荐(0) 编辑

南国故人

公告