2019 年 6月 19 日随笔档案 - virus丶舒

2019年6月19日

摘要：概述相比Hadoop MapReduce来说，Spark计算具有巨大的性能优势，其中很大一部分原因是Spark对于内存的充分利用，以及提供的缓存机制。 RDD持久化（缓存）持久化在早期被称作缓存（cache），但缓存一般指将内容放在内存中。虽然持久化操作在绝大部分情况下都是将RDD缓存在内存中，阅读全文

posted @ 2019-06-19 06:38 virus丶舒阅读(1960) 评论(0) 推荐(0) 编辑

Shuffle 相关参数配置

摘要：概述 Shuffle是Spark Core比较复杂的模块，它也是非常影响性能的操作之一。因此，在这里整理了会影响Shuffle性能的各项配置。 1）spark.shuffle.manager Spark 1.2.0官方版本支持两种方式的Shuffle，即Hash Based Shuffle和Sort 阅读全文

posted @ 2019-06-19 06:37 virus丶舒阅读(235) 评论(0) 推荐(0) 编辑

公告