2017 年 10月 24 日随笔档案 - RZ_Lee

2017年10月24日

摘要：由于Spark 的计算本质是基于内存的，所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据，那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对阅读全文

posted @ 2017-10-24 10:51 RZ_Lee 阅读(342) 评论(0) 推荐(0) 编辑

Spark- Checkpoint原理剖析

摘要： Checkpoint，是Spark 提供的一个比较高级的功能。有的时候，比如说，我们的 Spark 应用程序，特别的复杂，然后从初始的RDD开始，到最后拯个应用程序完成，有非常多的步骤，比如超过20个transformation 操作。而且整个应用运行的时间也特别的长，比如通常要运行1-5小时。在阅读全文

posted @ 2017-10-24 09:19 RZ_Lee 阅读(282) 评论(0) 推荐(0) 编辑

Spark- 优化后的 shuffle 操作原理剖析

摘要：在spark新版本中，引入了 consolidation 机制，也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本，这个不会变。但是，当下一个 ShuffleMapTask 运行的时候，可以直接将数据写入之前的 Shuf 阅读全文

posted @ 2017-10-24 08:39 RZ_Lee 阅读(260) 评论(0) 推荐(0) 编辑

RZ_Lee

积累点滴，终成大器

公告