[spark] 常用参数和默认配置
常用的Spark任务参数及其作用:
-
spark.driver.memory
:设置driver进程使用的内存大小,默认为1g。 -
spark.executor.memory
:设置每个executor进程使用的内存大小,默认为1g。 -
spark.executor.cores
:设置每个executor进程使用的CPU核数,默认为1。 -
spark.default.parallelism
:设置RDD的默认并行设置,即在没有指定分区数时Spark将根据集群情况自动确定分区数量。 -
spark.memory.fraction
:设置Spark程序可使用的堆内存占JVM堆内存大小的比例,默认为0.6。 -
spark.serializer
:设置序列化方式,默认为Java序列化,也支持Kryo序列化等。 -
spark.shuffle.file.buffer
:设置shuffle过程中写入磁盘的缓冲大小,默认为32k。 -
spark.reducer.maxSizeInFlight
:设置每个reduce task所能接收的map task输出的最大数据量,默认为48MB。 -
spark.shuffle.memoryFraction
:设置shuffle操作使用的内存大小占可用堆内存大小的比例,默认为0.2。 -
spark.shuffle.compress
:设置shuffle过程中是否启用压缩,压缩后可以减少数据传输时的带宽消耗。 -
spark.driver.maxResultSize
:设置driver进程存储执行结果的最大内存空间,默认为1g。 -
spark.sql.shuffle.partitions
:设置shuffle操作所用的分区数,默认为200。
本文来自博客园,作者:蛇啊蛇啊,转载请注明原文链接:https://www.cnblogs.com/afra17/p/17448671.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署