2020 年 5月 19 日随笔档案 - 清浊

2020年5月19日

摘要：由于Spark的计算本质是基于内存的，所以Spark性能程序的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容纳得下所有的数据，那么网络传输和通信就会导致性能出现瓶颈。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对内阅读全文

posted @ 2020-05-19 20:31 清浊阅读(394) 评论(0) 推荐(0) 编辑

Spark内核源码解析十四：checkpoint原理剖析

摘要： Checkpoint，是Spark提供的一个比较高级的功能。有的时候啊，比如说，我们的Spark应用程序，特别的复杂，然后呢，从初始的RDD开始，到最后整个应用程序完成，有非常多的步骤，比如超过20个transformation操作。而且呢，整个应用运行的时间也特别长，比如通常要运行1~5个小时。在阅读全文

posted @ 2020-05-19 01:02 清浊阅读(239) 评论(0) 推荐(0) 编辑

Spark内核源码解析十三：cacheManager原理解析和源码解析

摘要： CacheManager原理图入口RDD的iterator方法 final def iterator(split: Partition, context: TaskContext): Iterator[T] = { // 如果持久化级别不是none，之前持久化过RDD，那么就不要直接去执行父RDD 阅读全文

posted @ 2020-05-19 00:28 清浊阅读(249) 评论(0) 推荐(0) 编辑