瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理

2014年6月21日 #

摘要: 1、Application 基于spark的用户程序,包含了一个Driver Program以及集群上中多个executor; spark中只要有一个sparkcontext就是一个application; 启动一个spark-shell也是一个application,因为在启动shark-she... 阅读全文
posted @ 2014-06-21 16:36 瞌睡中的葡萄虎 阅读(674) 评论(0) 推荐(0) 编辑

摘要: 通过观察RDD.scala源代码即可知道cache和persist的区别:def persist(newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE && newLevel != storage... 阅读全文
posted @ 2014-06-21 15:39 瞌睡中的葡萄虎 阅读(4308) 评论(1) 推荐(0) 编辑

摘要: Spark支持将数据集放置在集群的缓存中,以便于数据重用。Spark缓存策略对应的类:class StorageLevel private( private var useDisk_ : Boolean, private var useMemory_ : Boolean, ... 阅读全文
posted @ 2014-06-21 15:23 瞌睡中的葡萄虎 阅读(3742) 评论(0) 推荐(0) 编辑

摘要: RDD:ResilientDistributedDatasetRDD的特点:1、A list ofpartitions 一系列的分片:比如说64M一片;类似于Hadoop中的split;2、Afunctionfor computing each split 在每个分片上都有一个函数去迭代/执行/... 阅读全文
posted @ 2014-06-21 15:12 瞌睡中的葡萄虎 阅读(1040) 评论(0) 推荐(0) 编辑