YARN生产MR异常处理过程
问题描述:
部分mr任务提交较慢,跟踪日志发现,reduce的过程中,进度条还会倒退,如:已经reduce至80%,下一刻会慢慢下降79%,78%...
分析过程:
1、根据日志描述,任务不存在于缓存中
2、查看主机资源利用率情况
调nmon查看记录,异常时,主机资源利用率虽然偶尔出现较高的峰值,但并未持续,总体均算正常包括cpu,内存,网络,磁盘
3、查看nodemanager内存堆
发现2,3数据节点的nm进程的内存堆(老年代)已经使用至100%(设置为8G)
4、nm GC情况:
故障分析:参考https://issues.apache.org/jira/browse/YARN-4095 当前版本的NodeManager的缺陷,ShuffleHandler未复用AllocatorPerContext对象造成重复创建对象造成的堆内存的高使用。nm内存中存在大量存活对象,gc无法清理出足够的空间来创建新对象,导致节点YarnChild进程卡死。
处理方案:
优化nm堆内存配置及其相关参数:
1.mr客户端参数:(mapred-site.xml)
mapreduce.map.memory.mb调整为2048(目前为1024)
mapreduce.reduce.memory.mb调整为4096(目前为1024)
mapred.child.java.opts调整为-Xmx1024m(目前为-Xmx512m)
2.yarn资源参数:(yarn-site.xml)
yarn.scheduler.minimum-allocation-mb调整为2048(目前为1024)
3.nm堆内存参数:(yarn-env.sh)
YARN_NODEMANAGER_OPTS="-Xmx12000m -Xms12000m -Xmn1024m"(目前为"-Xmx8000m -Xms8000m -Xmn1024m")
4.rpc服务listen线程相关参数:
core-site.xml添加以下参数:ipc.server.listen.queue.size ipc 1024(默认128)
系统内核参数:/proc/sys/net/core/somaxconn 调整为1024 (目前为128)
影响范围:
参数修改后需要重启整个集群,重启期间业务会中断,预计修改及重启所需30分钟
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)