2013 年 12月 30 日随笔档案 - 王晓伟

2013年12月30日

摘要：最近某hadoop集群多次出现机器宕机，现象为瞬间机器的sys cpu增长至100%，机器无法登录。只能硬件重启，ganglia cpu信息如下：首先怀疑有用户启动了比较奇葩的job，导致不合理的系统调用出现的问题。随后加了ps及pidstat信息收集job信息（公共集群蛋疼的地方），然后出现问题的时候，各类脚本已经无法工作，一直没有抓到现场。终于在某一次看到一台机器sys 瞬间增长，且机器还能登录。立马查看现场，发现竟然元凶是datanode：datanode一个进程占用cpu 1600%，sys cpu占用超过40%Datanode的进程栈信息，大量dataxceiver线程block，. 阅读全文

posted @ 2013-12-30 19:44 王晓伟阅读(3167) 评论(1) 推荐(0) 编辑

王晓伟

他山之石，可以攻玉