代码改变世界

随笔档案-2018年02月

spark调优

2018-02-22 18:06 by 牛仔裤的夏天, 1249 阅读, 收藏,
摘要: 摘要:鉴于 Spark 基于内存计算这一天性,以下集群资源可能会造成 Spark 程序的瓶颈:CPU,带宽和内存。通常情况下,如果内存足够的情况下,瓶颈就是网络带宽,但有时,你也需要做一些优化,例如以序列化的格式存储RDD,来减少内存使用。本指南将涵盖两个主要主题:数据序列化(这对于良好的网络性能至 阅读全文