记一次nfs报错排查

  1. 过程

    业务主机5月6日上午9.20左右系统报错nfs服务端主机未响应。

    影响:业务受到影响,无法进入此nfs所挂载目录。

    处理:重启后恢复。

  2. 系统配置

    系统版本:centos7.6

    内存:32G

    CPU:32核

    磁盘类型:NFS挂载,业务使用卷

     

  3. 系统日志报错nfs: server host not responding, still trying

    时间点2022.5.6,9点20分左右

    根据报错提示字面意思为 nfs:服务器主机没有响应,仍在尝试,报错出现时间段没有发现系统的其它异常报错。

    cpu为32核2双线程的配置

  4. 分析该时间段的性能日志
  5. 查看cpu和iowait状态

    发现9:30开始iowait逐渐升高至80以上,cpu空闲率不断下降至0。

    初步确定当时的cpu几乎没有空闲。

  6. 查看load负载

    发现从9:10-20左右load开始飙升,pilst显示进程和线程数量增加明显,比5200平均多出500-1000的数量,从blocked列可以看到等待io处理完成的数量也在急剧增高,数量在200-300,正常时是只有0-10之间,几乎处于阻塞状态,说明io请求迟迟没有得到处理,因主机后面重启,无法查看当时的进程详细,这边认为是业务进程数量增加导致。

     

  7. 查看内存情况

    物理内存使用较多,不过主要在cache中,内存没有问题。

     

     

  8. 查看网络设备情况

    并未出现丢包情况。

  9. 结果

     

    经过排查nfs客户端分析:从历史性能看到,业务进程数量急剧增加,cpu使用率和iowait处于超负荷状态,io请求几乎处于阻塞状态,导致业务受到影响。

     

    建议:1.确定nfs服务端当时的状况。

    2.业务请求是否合理,导致进程数量和io请求队列急剧增高。

    3.业务进程是否存在关联性,例如,死锁,io资源等待和竞争等

     

     

     

     

     

posted @ 2022-05-10 09:11  头发重要  阅读(520)  评论(0编辑  收藏  举报