摘要: 原文地址:http://jerryshao.me/architecture/2013/03/29/spark-overview/援引@JerryLead的系统架构图作为Spark整体结构的一个 birdview:整体上Spark分为以下几个主要的子模块:deploy:deply模块包括Master,Work和Client,参见architecture图的最上 部分。deploy主要负责启动和调度用户实现的Spark application并且分配资源给用户 application,类似于Hadoop YARN框架。scheduler:scheduler主要负责调度用户application内的 阅读全文
posted @ 2013-09-10 17:19 vincent_hv 阅读(1606) 评论(0) 推荐(0) 编辑
摘要: 尊重版权,原文:http://blog.csdn.net/macyang/article/details/7100523- Spark是什么?Spark is a MapReduce-like cluster computing framework designed to support low-latency iterative jobs and interactive use from an interpreter. It is written in Scala, a high-level language for the JVM, and exposes a clean language 阅读全文
posted @ 2013-09-10 15:39 vincent_hv 阅读(978) 评论(0) 推荐(0) 编辑
摘要: RDD是什么东西?在Spark中有什么作用?如何使用?1、RDD是什么(1)为什么会产生RDD?传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法(2)RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行 阅读全文
posted @ 2013-09-10 13:10 vincent_hv 阅读(1393) 评论(0) 推荐(0) 编辑