摘要: 1.RDD基础 弹性分布式数据集,简称RDD,是一个不可变的分布式对象集合。在Spark中,对数据的所有操作不外乎创建RDD,转化已有RDD以及调用RDD操作进行求值。 每一个RDD都被分为多个分区,这些分区运行在集群中的不同节点上,RDD可以包含Python,Java,Scala中任意类型的对象, 阅读全文
posted @ 2017-01-23 23:03 cyoutetsu 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 2.1 Spark核心概念简介 驱动器程序通过一个SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。shell启动时已经创建了一个SparkContext对象,是一个叫做sc的变量。一旦有了SparkContext,你就可以用它来创建RDD。要执行这些操作,驱动器程序一 阅读全文
posted @ 2017-01-23 16:27 cyoutetsu 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 1.1 Spark是什么 Spark是一个用来实现快速而通用的集群计算的平台。Spark扩展了广泛使用的MapReduce平台计算模型,而且高效地支持更多模式,包括交互式查询和流处理。Spark的一个主要的特点就是能够在内存中进行计算。 1.2 一个大一统的软件栈 Spark的核心是一个对由很多计算 阅读全文
posted @ 2017-01-23 16:09 cyoutetsu 阅读(246) 评论(0) 推荐(0) 编辑