Spark任务OOM问题如何解决？

合集 - 威哥爱编程(68)

1.35个Redis企业级性能优化点与解决方案2024-06-25 2.对比传统数据库，TiDB 强在哪？谈谈 TiDB 的适应场景和产品能力2024-06-25 3.深度长文解析SpringWebFlux响应式框架15个核心组件源码2024-07-04 4.Nginx性能调优5招35式不可不知的策略实战2024-07-08 5.Java Executors类的9种创建线程池的方法及应用场景分析2024-07-09 6.Redis数据结构—跳跃表 skiplist 实现源码分析2024-07-12 7.Volatile不保证原子性及解决方案2024-07-19 8.吃透 JVM 诊断方法与工具使用2024-08-01 9.Java RMI技术详解与案例分析2024-08-05 10.通过JUnit源码分析学习编程的奇技淫巧2024-08-12 11.什么是依赖倒置原则2024-08-14 12.初探 Rust 语言与环境搭建2024-08-19 13.为什么用Vite框架？来看它的核心组件案例详解2024-08-22 14.Vue状态管理库Pinia详解2024-08-23 15.Tomcat的配置文件中有哪些关键的配置项，它们分别有什么作用？2024-08-26 16.ECharts实现雷达图详解2024-09-02 17.OpenFeign深入学习笔记2024-09-03 18.阿里面试让聊一聊Redis 的内存淘汰（驱逐）策略2024-09-23 19.除了递归算法，要如何优化实现文件搜索功能2024-09-24 20.关于建表字段是否该使用not null这个问题你怎么看?2024-09-25 21.三大硬核方式揭秘：Java如何与底层硬件和工业设备轻松通信！2024-09-26 22.在 ArkTS 中，如何有效地进行内存管理和避免内存泄漏？2024-09-27 23.10款好用的开源 HarmonyOS 工具库2024-09-30 24.尝鲜 HarmonyOS NEXT 开发环境搭建2024-09-30 25.HarmonyOS NEXT 底部选项卡功能2024-10-09 26.HarmonyOS NEXT 开发之ArkTS基础入门2024-10-10 27.ArkTS 和仓颉的特性对比与案例2024-10-11

28.Spark任务OOM问题如何解决？2024-10-14

29.鸿蒙NEXT开发声明式UI是咋回事？2024-10-15 30.HarmonyOS NEXT开发之ArkTS自定义组件学习笔记2024-10-16 31.如何在鸿蒙 NEXT 中使用 @Builder 装饰器优化 UI 组件的复用？2024-10-16 32.鸿蒙 NEXT 如何使用 @Styles 装饰器来优化我的组件代码？2024-10-17 33.Java 如何确保 JS 不被缓存2024-10-21 34.10月22日纯血鸿蒙正式版发布意味着什么？2024-10-23 35.鸿蒙NEXT应用上架与分发步骤详解2024-10-25 36.Java EasyExcel 导出报内存溢出如何解决2024-10-28 37.Java Z 垃圾收集器如何彻底改变内存管理2024-10-30 38.聊聊公众号联动扫码登录功能如何实现2024-11-01 39.IDEA中通义灵码的使用技巧2024-11-04 40.细谈 Linux 中的多路复用epoll2024-11-05 41.适合才最美：Shiro安全框架使用心得2024-11-06 42.MongoDB面试专题33道解析2024-11-07 43.SQL Server 数据太多如何优化2024-11-08 44.【项目场景】请求数据时测试环境比生产环境多花了1秒是怎么回事？2024-11-11 45.Java灵魂拷问13个为什么，你都会哪些？2024-11-13 46.异步编程在ArkTS中具体怎么实现？2024-11-21 47.如何理解ArkTS不支持structural typing2024-11-21 48.ArkTS四种渲染控制能力2024-11-25 49.在ArkTS中，如何优化布局以提高性能？2024-12-03 50.ArkUI与MVVM模式的诗和远方2024-12-04 51.鸿蒙NEXT开发中如何确保使用 PersistentStorage 存储的数据安全？2024-12-06 52.优雅的@ObservedV2和@Trace装饰器2024-12-11 53.10个案例告诉你mysql不使用子查询的原因2024-12-23 54.鸿蒙 NEXT 开发中，使用公共事件进行进程间通信01-02 55.鸿蒙NEXT开发中使用星闪服务01-03 56.鸿蒙NEXT使用request模块实现本地文件上传01-06 57.玩转 DevEco Studio 5 代码重构功能01-07 58.JAVA线程池有哪些队列？以及它们的适用场景案例01-08 59.2025 年，程序员如何找准技术“掘金点”？01-10 60.鸿蒙 NEXT 开发中，普通对象跨线程如何传递01-13 61.什么是内存泄漏？C++中如何检测和解决？01-15 62.使用贪心算法解决最小生成树问题01-20 63.如何使用 Python 进行文件读写操作？01-21 64.如何在Python中高效地读写大型文件？01-22 65.2025春招，Spring 面试题汇总01-23 66.2025春招 SpringCloud 面试题汇总02-05 67.无需编码5分钟免费部署云上调用满血版DeepSeek02-14 68.Python 实现反转、合并链表有啥用？02-19

大家好，我是 V 哥。在实际的业务场景中，Spark任务出现OOM（Out of Memory） 问题通常是由于任务处理的数据量过大、资源分配不合理或者代码存在性能瓶颈等原因造成的。针对不同的业务场景和原因，可以从以下几个方面进行优化和解决。

一、业务场景及可能的OOM原因分析

数据量过大：
- 业务场景：处理海量数据集（例如，数亿行日志数据或数十TB的数据集），任务执行过程中需要对数据进行大规模的聚合、排序、连接等操作。
- OOM 原因：数据无法完全放入内存，导致溢出，尤其是在shuffle或join操作时，数据量暴增。
数据倾斜：
- 业务场景：处理的数据分布不均匀（如某个用户或产品的数据量过多），导致部分节点上出现计算或内存瓶颈。
- OOM 原因：由于部分节点需要处理大量的数据，某些节点的任务会使用超出可用内存的资源，而其他节点的负载较轻。
不合理的资源分配：
- 业务场景：资源分配过低，导致单个任务分配到的内存、CPU等资源不足。
- OOM 原因：Executor的内存设置太小，或者数据过度缓存，导致内存不足。
代码中存在缓存过多或内存使用不合理：
- 业务场景：频繁使用cache()、persist()，或对数据结构进行不必要的操作，导致内存过度消耗。
- OOM 原因：数据缓存没有及时释放，导致内存占用过多。

二、针对OOM问题的解决方案

1. 调整Executor的内存和CPU资源

通过合理的资源分配，确保每个Executor有足够的内存处理数据。

增加Executor的内存：
Spark 中的Executor负责在集群节点上执行任务，默认每个Executor的内存可能不足以处理大数据集。可以增加Executor的内存以缓解OOM问题。

   --executor-memory 8G

可以通过--executor-memory选项来设置每个Executor的内存。例如，将内存设置为8GB。如果数据量很大，可以根据情况设置更大的内存。

调整堆外内存：
Spark还使用了一部分堆外内存（off-heap memory）。如果涉及大量的堆外内存操作，可以通过以下配置增加堆外内存：

   --conf spark.memory.offHeap.enabled=true
   --conf spark.memory.offHeap.size=4G

调整Executor的CPU核心数：
为每个Executor分配更多的CPU核心，以加快任务的处理速度，防止长时间占用内存。

   --executor-cores 4

通过--executor-cores设置每个Executor使用的核心数。例如，可以将核心数设置为4，以提升并发计算能力。

2. 调整内存管理策略

Spark的内存管理策略主要涉及以下几个关键参数，它们的优化配置可以帮助减少OOM问题。

调整内存管理比例：
Spark 2.x 及以上版本采用统一的内存管理模型，可以通过调节以下参数优化内存使用：

   --conf spark.memory.fraction=0.8
   --conf spark.memory.storageFraction=0.5

spark.memory.fraction：该参数控制了存储与执行内存的总占比，默认是0.6，可以适当调高。
spark.memory.storageFraction：该参数决定了在memory.fraction的基础上，存储内存的占比。如果需要更多执行内存，可以适当减小该值。

减少缓存数据的存储占用：
- 及时清理缓存：对于不再需要的数据，及时调用unpersist()来清理缓存，释放内存。

   rdd.unpersist()

调整缓存级别：在缓存时，使用StorageLevel.DISK_ONLY或StorageLevel.MEMORY_AND_DISK，以减少内存占用。

   rdd.persist(StorageLevel.MEMORY_AND_DISK)

3. 数据切分与优化操作

Spark任务中的shuffle、join、groupBy等操作通常会引起大量内存消耗，以下优化可以减轻这些操作带来的OOM风险。

调整分区数：
- 对于大规模数据操作如join、shuffle等，分区数的设置至关重要。如果分区数过少，可能会导致某些分区数据量过大，进而导致内存溢出。

   rdd.repartition(200)

或者在执行某些操作时，显式指定分区数：

   rdd.reduceByKey(_ + _, numPartitions = 200)

通常的经验是将分区数量设置为比Executor数量高出数倍（例如，每个核心处理2-4个分区）。

避免过多的宽依赖：
宽依赖（如groupByKey）会在shuffle时造成内存的压力，特别是数据量较大时，应该尽量避免。可以通过替换为reduceByKey等具有预聚合功能的操作来减少内存消耗：

   rdd.reduceByKey(_ + _)

避免数据倾斜：
如果存在数据倾斜，部分节点处理大量数据，容易导致OOM。以下是常见的解决方法：
- 随机键拆分：可以为数据加上随机前缀，以打散数据，避免部分节点数据量过大。

   rdd.map(x => ((x._1 + new Random().nextInt(10)), x._2))

广播小表：在join操作中，如果一张表很小，可以使用广播变量，将小表广播到每个节点，减少数据传输和内存占用：

   val broadcastVar = sc.broadcast(smallTable)
   largeTable.mapPartitions { partition =>
     val small = broadcastVar.value
     partition.map(largeRow => ...)
   }

4. 调整Spark的并行度和Shuffle机制

Spark的shuffle操作（如groupByKey、join）会导致大量数据需要在不同的节点之间传输。如果并行度设置过低，容易导致某个节点处理的数据量过大，从而引发OOM。

增加并行度：

   --conf spark.sql.shuffle.partitions=200

或者在代码中显式设置：

   spark.conf.set("spark.sql.shuffle.partitions", "200")

默认情况下，spark.sql.shuffle.partitions的值可能偏小（例如200），根据数据规模适当调整该值可以减轻单个节点的负载。

调整Shuffle合并机制：
Spark 3.0引入了 Adaptive Query Execution (AQE)，可以在执行时动态调整shuffle的分区数，避免某些分区数据量过大：

   --conf spark.sql.adaptive.enabled=true
   --conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize=64M

AQE 可以根据任务的执行情况自动调整shuffle的分区数，从而避免OOM。

五、小结一下

Spark任务中的OOM问题常常由于数据量过大、数据倾斜、资源分配不合理等问题引起，针对不同的业务场景，可以采取以下措施进行优化：

合理分配内存和CPU：增加Executor的内存和CPU核心数，合理配置内存管理参数。
调整分区数和优化操作：通过调整分区数、减少宽依赖等方式减少内存占用。
处理数据倾斜：通过随机键拆分、广播小表等方法避免数据倾斜。
使用缓存优化内存：减少不必要的cache()和persist()操作，并及时释放缓存数据。

好了，今天的内容就写到这里，这些优化方法结合使用，可以有效解决Spark任务中的OOM问题。关注威哥爱编程，码码通畅不掉发。

posted @ 2024-10-14 09:54 威哥爱编程阅读(225) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· SQL Server 数据太多如何优化

· 线程池有哪些拒绝策略？

· 美团面试：说说OOM三大场景和解决方案？（绝对史上最全）

· Spark排错与优化

· Spark3-入门指南-全-

阅读排行：
· [翻译] 为什么 Tracebit 用 C# 开发
· 腾讯ima接入deepseek-r1，借用别人脑子用用成真了~
· Deepseek官网太卡，教你白嫖阿里云的Deepseek-R1满血版
· DeepSeek崛起：程序员“饭碗”被抢，还是职业进化新起点？
· RFID实践——.NET IoT程序读取高频RFID卡/标签

公告

华为开发者专家（HDE）

昵称：威哥爱编程
园龄： 2年9个月
粉丝： 32
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

威哥爱编程

华为开发者专家（HDE）：专注于 Java、HarmonyOS、AI 大模型、Go技术分享

Spark任务OOM问题如何解决？

一、业务场景及可能的OOM原因分析

二、针对OOM问题的解决方案

1. 调整Executor的内存和CPU资源

2. 调整内存管理策略

3. 数据切分与优化操作

4. 调整Spark的并行度和Shuffle机制

五、小结一下

公告

搜索

常用链接

我的标签

合集

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论