摘要:
前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题,因为它会使我们的Spark应用程序崩溃。 但这类问题也经常发生,因为Driver 收集了太多的数据回到驱动程序,使其内存不足。 主要症状 Spark应用程序无应答或者崩溃 Driver日 阅读全文
摘要:
前言 Join和Aggregation操作都可能引起Shuffle,所以这类问题一般具有相似的症状和解决办法。 主要症状 Join stage可能一直在运行,它可能包含一个或者多个task。 该Join stage前后的stage看起来一切正常。 可能的解决方法 许多Join可以被手动或自动)优化到 阅读全文
摘要:
前言 如果你程序中的聚合速度较慢,请先查看 "Spark Stragglers/任务执行缓慢" 部分。 主要症状 在执行 groupby 操作时,任务执行缓慢 聚合操作的后序操作也很缓慢 可能的原因 这类问题并没有固定的解决方法。 有时候,由于作业中的数据有一些偏斜的键(即数据倾斜),导致作业执行缓 阅读全文