摘要:
云梯开发人员在云梯Yarn集群的搭建和维护过程中做了许多工作,本文选择这期间部分较为典型的问题,通过对这些问题的分析和解决方案,为大家分享分布式系统问题调查的经验。调查的问题1. 2013年初引入社区0.23时,调查ResourceManager运行过程汇总突然挂掉的问题现象:监控报警,线上运行的RM突然挂掉,RM异常日志如下,2012-12-17 17:20:28,294 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error in handling event type APP_REMOVED t 阅读全文