yarn 集群资源为0 问题cluster resource is <memory:0, vCores:0>
测试集群上一个任务一直夯住,执行了几个小时还没有结束。
我对问题进行了排查
查看yarn页面发现任务被接受了,但没有被分配资源
查看rm日志,也是集群没有任何资源
Application is added to the scheduler and is not yet activated. Skipping AM assignment as cluster resource is empty
怀疑nn没有启动注册成功
查看nn启动着,日志显示也注册成了
再查看rm日志,发现nn被标记为不健康移除了
最后在yarn web页面的nn的health-report发现,是nn的存储空间不足达到阈值导致的
后来排查发现是其他部门的实习同志误操作短时间在测试集群nn节点写入大量数据,占用了额外的存储空间导致