上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 53 下一页

Sparrow - Distributed, Low Latency Scheduling

摘要: http://www.cs.berkeley.edu/~matei/papers/2013/sosp_sparrow.pdf http://www.eecs.berkeley.edu/~keo/talks/sparrow-sosp-talk.pdf 解决的问题 现有的scheduler方案, 都是基于master的, 因为schedule必须要知道所有slave的情况, 然后才能决定... 阅读全文
posted @ 2014-01-14 13:41 fxjwind 阅读(1337) 评论(0) 推荐(0) 编辑

Spark源码分析 – SparkEnv

摘要: SparkEnv在两个地方会被创建, 由于SparkEnv中包含了很多重要的模块, 比如BlockManager, 所以SparkEnv很重要 Driver端, 在SparkContext初始化的时候, SparkEnv会被创建 // Create the Spark execution environment (cache, map output tracker, etc) ... 阅读全文
posted @ 2014-01-13 10:54 fxjwind 阅读(2623) 评论(10) 推荐(0) 编辑

Spark源码分析 – Checkpoint

摘要: CP的步骤 1. 首先如果RDD需要CP, 调用RDD.checkpoint()来mark 注释说了, 这个需要在Job被执行前被mark, 原因后面看, 并且最好选择persist这个RDD, 否则在存CP文件时需要重新computeRDD内容 并且当RDD被CP后, 所有dependencies都会被清除, 因为既然RDD已经被CP, 那么就可以直接从文件读取, 没有必要保留之... 阅读全文
posted @ 2014-01-10 18:24 fxjwind 阅读(3353) 评论(7) 推荐(0) 编辑

Spark源码分析 – BlockManager

摘要: 参考, Spark源码分析之-Storage模块 对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或disk中,RDD是由partitions组成的,对应于block 所以storage模块,就是要实现RDD在memory和disk上的persistent功能 首先每个节点都有一个Bloc... 阅读全文
posted @ 2014-01-10 11:19 fxjwind 阅读(4959) 评论(2) 推荐(0) 编辑

Spark 源码分析 – BlockManagerMaster&Slave

摘要: BlockManagerMaster 只是维护一系列对BlockManagerMasterActor的接口, 所有的都是通过tell和askDriverWithReply从BlockManagerMasterActor获取数据 比较鸡肋的类 private[spark] class BlockManagerMaster(var driverActor: ActorRef) ex... 阅读全文
posted @ 2014-01-10 11:03 fxjwind 阅读(2464) 评论(2) 推荐(0) 编辑

Spark 源码分析 -- BlockStore

摘要: BlockStore 抽象接口类, 关键get和put都有两个版本序列化, putBytes, getBytes非序列化, putValues, getValues 其中putValues的返回值为PutResult, 其中的data可能是Iterator或ByteBuffer private[spark] case class PutResult(size: Long, data: Either... 阅读全文
posted @ 2014-01-09 17:48 fxjwind 阅读(1282) 评论(0) 推荐(0) 编辑

Spark源码分析 – Executor

摘要: ExecutorBackend 很简单的接口 package org.apache.spark.executor/** * A pluggable interface used by the Executor to send updates to the cluster scheduler. */private[spark] trait ExecutorBackend { def s... 阅读全文
posted @ 2014-01-07 16:52 fxjwind 阅读(1911) 评论(0) 推荐(0) 编辑

Spark源码分析 -- SchedulableBuilder

摘要: SchedulableBuilder就是对Scheduleable tree的封装, 在Pool层面(中间节点), 完成对TaskSet的调度(FIFO, FAIR) 在TaskSetManager 层面(叶子节点), 完成对TaskSet中task的调度(locality)以及track(retry) TaskSetManager 用于封装TaskSet, 主要提供对单个Ta... 阅读全文
posted @ 2014-01-06 15:30 fxjwind 阅读(1447) 评论(0) 推荐(0) 编辑

Spark源码分析 -- TaskScheduler

摘要: Spark在设计上将DAGScheduler和TaskScheduler完全解耦合, 所以在资源管理和task调度上可以有更多的方案 现在支持, LocalSheduler, ClusterScheduler, MesosScheduler, YarnClusterScheduler 先分析ClusterScheduler, 即standalone的Spark集群上, 因为比较单纯不涉及其他的... 阅读全文
posted @ 2014-01-03 18:25 fxjwind 阅读(2043) 评论(0) 推荐(0) 编辑

Spark源码分析 – SchedulerBackend

摘要: SchedulerBackend, 两个任务, 申请资源和task执行和管理 对于SparkDeploySchedulerBackend, 基于actor模式, 主要就是启动和管理两个actor Deploy.Client Actor, 负责资源申请, 在SparkDeploySchedulerBackend初始化的时候就会被创建, 然后Client会去到Master上注册, 最终完成在W... 阅读全文
posted @ 2014-01-03 17:25 fxjwind 阅读(2869) 评论(0) 推荐(0) 编辑
上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 53 下一页