2020年5月19日
摘要: 由于Spark的计算本质是基于内存的,所以Spark性能程序的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者是内存。如果内存能够容纳得下所有的数据,那么网络传输和通信就会导致性能出现瓶颈。但是如果内存比较紧张,不足以放下所有的数据(比如在针对10亿以上的数据量进行计算时),还是需要对内 阅读全文
posted @ 2020-05-19 20:31 清浊 阅读(394) 评论(0) 推荐(0) 编辑
摘要: Checkpoint,是Spark提供的一个比较高级的功能。有的时候啊,比如说,我们的Spark应用程序,特别的复杂,然后呢,从初始的RDD开始,到最后整个应用程序完成,有非常多的步骤,比如超过20个transformation操作。而且呢,整个应用运行的时间也特别长,比如通常要运行1~5个小时。在 阅读全文
posted @ 2020-05-19 01:02 清浊 阅读(239) 评论(0) 推荐(0) 编辑
摘要: CacheManager原理图 入口RDD的iterator方法 final def iterator(split: Partition, context: TaskContext): Iterator[T] = { // 如果持久化级别不是none,之前持久化过RDD,那么就不要直接去执行父RDD 阅读全文
posted @ 2020-05-19 00:28 清浊 阅读(249) 评论(0) 推荐(0) 编辑