2013 年 9月 10 日随笔档案 - vincent_hv

2013年9月10日

摘要：原文地址：http://jerryshao.me/architecture/2013/03/29/spark-overview/援引@JerryLead的系统架构图作为Spark整体结构的一个 birdview：整体上Spark分为以下几个主要的子模块:deploy:deply模块包括Master，Work和Client，参见architecture图的最上部分。deploy主要负责启动和调度用户实现的Spark application并且分配资源给用户 application，类似于Hadoop YARN框架。scheduler:scheduler主要负责调度用户application内的阅读全文

posted @ 2013-09-10 17:19 vincent_hv 阅读(1606) 评论(0) 推荐(0) 编辑

【转】Spark快速入门指南

摘要：尊重版权，原文：http://blog.csdn.net/macyang/article/details/7100523- Spark是什么？Spark is a MapReduce-like cluster computing framework designed to support low-latency iterative jobs and interactive use from an interpreter. It is written in Scala, a high-level language for the JVM, and exposes a clean language 阅读全文

posted @ 2013-09-10 15:39 vincent_hv 阅读(978) 评论(0) 推荐(0) 编辑

【原】RDD专题

摘要： RDD是什么东西？在Spark中有什么作用？如何使用？1、RDD是什么（1）为什么会产生RDD？传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法（2）RDD的具体描述RDD（弹性数据集）是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合，它提供了一种只读、只能有已存在的RDD变换而来的共享内存，然后将所有数据都加载到内存中，方便进行阅读全文

posted @ 2013-09-10 13:10 vincent_hv 阅读(1393) 评论(0) 推荐(0) 编辑

vincent_hv

Talk is cheap, show the code!

公告