2014 年 8月 2 日随笔档案 - 瞌睡中的葡萄虎

Hadoop2.0构成之YARN

摘要： YARN产生背景Hadoop1.x中的MapReduce构成图如下：在Hadoop1.x中MapReduce是Master/Slave结构，在集群中的表现形式为：1个JobTracker带多个TaskTracker；JobTracker：负责资源管理和作业调度；TaskTracker：定期向JobT... 阅读全文

posted @ 2014-08-02 15:08 瞌睡中的葡萄虎阅读(1207) 评论(0) 推荐(1) 编辑

Hadoop2.0构成之HDFS2.0

摘要： HDFS2.0之HA主备NameNode： 1、主NameNode对外提供服务，备NameNode同步主NameNode元数据，以待切换； 2、主NameNode的信息发生变化后，会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中； 3、所有DataNode同时向两个Name... 阅读全文

posted @ 2014-08-02 15:01 瞌睡中的葡萄虎阅读(632) 评论(0) 推荐(0) 编辑

Hadoop2.0的基本构成总览

摘要： Hadoop1.x和Hadoop2.0构成图对比Hadoop1.x构成： HDFS、MapReduce(资源管理和任务调度)；运行时环境为JobTracker和TaskTracker；Hadoop2.0构成：HDFS、MapReduce/其他计算框架、YARN；运行时环境为YARN 1、HDFS... 阅读全文

posted @ 2014-08-02 14:52 瞌睡中的葡萄虎阅读(1821) 评论(0) 推荐(1) 编辑

Hadoop2.0产生背景

摘要： Hadoop与Hadoop生态系统的区别Hadoop：是一个适合大数据分布式存储和分布式计算的平台，在Hadoop1.x中对应于HDFS和MapReduce；Hadoop生态系统：是一个很庞大的概念，Hadoop是其中最重要最基础的一个部分；生态系统中的每个子系统只负责解决某一个特定的问题域（甚至可... 阅读全文

posted @ 2014-08-02 14:28 瞌睡中的葡萄虎阅读(344) 评论(0) 推荐(0) 编辑

Spark分析之Job Scheduling Process

摘要：经过前面文章的SparkContext、DAGScheduler、TaskScheduler分析，再从总体上了解Spark Job的调度流程1、SparkContext将job的RDD DAG图提交给DAGScheduler；2、DAGScheduler将job分解成Stage DAG，将每个Sta... 阅读全文

posted @ 2014-08-02 02:04 瞌睡中的葡萄虎阅读(635) 评论(0) 推荐(0) 编辑

Spark分析之TaskScheduler

摘要： TaskScheduler概述：TaskScheduler是一个可插拔任务调度接口，通过不同的SchedulerBackend进行任务的调度。主要功能如下：1、一个TaskScheduler只为一个SparkContext服务，接收DAGScheduler提交过来的一组组的TaskSet；2、Tas... 阅读全文

posted @ 2014-08-02 00:59 瞌睡中的葡萄虎阅读(1352) 评论(2) 推荐(0) 编辑

Spark数据本地性

摘要： 1、文件系统本地性第一次运行时数据不在内存中，需要从HDFS上取，任务最好运行在数据所在的节点上；2、内存本地性第二次运行，数据已经在内存中，所有任务最好运行在该数据所在内存的节点上；3、LRU置换如果数据只缓存在内存中而并没有缓存到磁盘上，此时数据被置换出内存，则从HDFS上读取； ... 阅读全文

posted @ 2014-08-02 00:57 瞌睡中的葡萄虎阅读(735) 评论(0) 推荐(0) 编辑

瞌睡中的葡萄虎

公告