瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理

2014年8月2日 #

摘要: YARN产生背景Hadoop1.x中的MapReduce构成图如下:在Hadoop1.x中MapReduce是Master/Slave结构,在集群中的表现形式为:1个JobTracker带多个TaskTracker;JobTracker:负责资源管理和作业调度;TaskTracker:定期向JobT... 阅读全文
posted @ 2014-08-02 15:08 瞌睡中的葡萄虎 阅读(1204) 评论(0) 推荐(1) 编辑

摘要: HDFS2.0之HA主备NameNode: 1、主NameNode对外提供服务,备NameNode同步主NameNode元数据,以待切换; 2、主NameNode的信息发生变化后,会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中; 3、所有DataNode同时向两个Name... 阅读全文
posted @ 2014-08-02 15:01 瞌睡中的葡萄虎 阅读(627) 评论(0) 推荐(0) 编辑

摘要: Hadoop1.x和Hadoop2.0构成图对比Hadoop1.x构成: HDFS、MapReduce(资源管理和任务调度);运行时环境为JobTracker和TaskTracker;Hadoop2.0构成:HDFS、MapReduce/其他计算框架、YARN; 运行时环境为YARN 1、HDFS... 阅读全文
posted @ 2014-08-02 14:52 瞌睡中的葡萄虎 阅读(1805) 评论(0) 推荐(1) 编辑

摘要: Hadoop与Hadoop生态系统的区别Hadoop:是一个适合大数据分布式存储和分布式计算的平台,在Hadoop1.x中对应于HDFS和MapReduce;Hadoop生态系统:是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每个子系统只负责解决某一个特定的问题域(甚至可... 阅读全文
posted @ 2014-08-02 14:28 瞌睡中的葡萄虎 阅读(344) 评论(0) 推荐(0) 编辑

摘要: 经过前面文章的SparkContext、DAGScheduler、TaskScheduler分析,再从总体上了解Spark Job的调度流程1、SparkContext将job的RDD DAG图提交给DAGScheduler;2、DAGScheduler将job分解成Stage DAG,将每个Sta... 阅读全文
posted @ 2014-08-02 02:04 瞌睡中的葡萄虎 阅读(633) 评论(0) 推荐(0) 编辑

摘要: TaskScheduler概述:TaskScheduler是一个可插拔任务调度接口,通过不同的SchedulerBackend进行任务的调度。主要功能如下:1、一个TaskScheduler只为一个SparkContext服务,接收DAGScheduler提交过来的一组组的TaskSet;2、Tas... 阅读全文
posted @ 2014-08-02 00:59 瞌睡中的葡萄虎 阅读(1338) 评论(2) 推荐(0) 编辑

摘要: 1、文件系统本地性 第一次运行时数据不在内存中,需要从HDFS上取,任务最好运行在数据所在的节点上;2、内存本地性 第二次运行,数据已经在内存中,所有任务最好运行在该数据所在内存的节点上;3、LRU置换 如果数据只缓存在内存中而并没有缓存到磁盘上,此时数据被置换出内存,则从HDFS上读取; ... 阅读全文
posted @ 2014-08-02 00:57 瞌睡中的葡萄虎 阅读(733) 评论(0) 推荐(0) 编辑