摘要: 概述 相比Hadoop MapReduce来说,Spark计算具有巨大的性能优势,其中很大一部分原因是Spark对于内存的充分利用,以及提供的缓存机制。 RDD持久化(缓存) 持久化在早期被称作缓存(cache),但缓存一般指将内容放在内存中。虽然持久化操作在绝大部分情况下都是将RDD缓存在内存中, 阅读全文
posted @ 2019-06-19 06:38 virus丶舒 阅读(1960) 评论(0) 推荐(0) 编辑
摘要: 概述 Shuffle是Spark Core比较复杂的模块,它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。 1)spark.shuffle.manager Spark 1.2.0官方版本支持两种方式的Shuffle,即Hash Based Shuffle和Sort 阅读全文
posted @ 2019-06-19 06:37 virus丶舒 阅读(235) 评论(0) 推荐(0) 编辑