文档库异常

现象
某个目录无法访问
文档库210服务器本地挂载的90服务器，90服务器的共享目录中只有其中一个目录无妨访问，其他目录正常。
并且此时服务器负载升高，进程中出现 FIN_WAIT_2 和 CLOSE_WAIT

根据tcp4次挥手分析：出现CLOSE_WAIT状态的原因是：服务器一端因故没有向客户端发出FIN包，即服务端的LAST_ACK -- FIN -->客户端这步没能执行。在被动关闭连接情况下，在已经接收到FIN，但是还没有发送自己的FIN的时刻，连接处于CLOSE_WAIT状态。
CLOSE_WAIT 按照正常操作的话应该很短暂的一个状态，接收到客户端的fin包并且回复客户端ack之后，会继续发送fin包告知客户端关闭关闭连接，之后迁移到Last_ACK状态。但是close_wait过多只能说明没有迁移到Last_ACK，也就是服务端是否发送fin包，只有发送fin包才会发生迁移，所以问题定位在是否发送fin包。fin包的底层实现其实就是调用socket的close方法，这里的问题出在没有执行close方法。说明服务端socket忙于读写。
查看连接数状态
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

故障状态

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
1 10 0 29563468 2152 801120 0 0 0 0 81 359 0 0 56 44 0

重启文档库服务器后

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
2 0 0 29642856 2152 820892 0 0 5 0 5 20 0 0 100 0 0
0 0 0 29642860 2152 820992 0 0 0 0 60 286 0 0 100 0 0

查看系统日志

echo 0 > /proc/sys/kernel/hung_task_timeout_secs disables this message
问题原因：
默认情况下， Linux会最多使用40%的可用内存作为文件系统缓存。当超过这个阈值后，文件系统会把将缓存中的内存全部写入磁盘，导致后续的IO请求都是同步的。
将缓存写入磁盘时，有一个默认120秒的超时时间。出现上面的问题的原因是IO子系统的处理速度不够快，不能在120秒将缓存中的数据全部写入磁盘。
IO系统响应缓慢，导致越来越多的请求堆积，最终系统内存全部被占用，导致系统失去响应

脏页优化
vi /etc/sysctl.conf
vm.dirty_background_ratio = 5
vm.dirty_ratio = 10

close_wait过多的解决方案
代码层面做到
第一：使用完socket调用close方法；
第二：socket读控制，当读取的长度为0时（读到结尾），立即close；
第三：如果read返回-1，出现错误，检查error返回码，有三种情况：INTR（被中断，可以继续读取），WOULDBLOCK（表示当前socket_fd文件描述符是非阻塞的，但是现在被阻塞了），AGAIN（表示现在没有数据稍后重新读取）。如果不是AGAIN，立即close
可以设置TCP的连接时长keep_alive_time还有tcp监控连接的频率以及连接没有活动多长时间被迫断开连接

posted @ 2020-07-03 11:13 薄荷少年郎微微凉阅读(136) 评论(0) 收藏举报

刷新页面返回顶部

薄荷少年郎微微凉

少年不识愁滋味，爱上层楼。爱上层楼。为赋新词强说愁。而今识尽愁滋味，欲说还休。欲说还休。却道天凉好个秋。

文档库异常

故障状态

重启文档库服务器后

公告

薄荷少年郎微微凉

少年不识愁滋味，爱上层楼。爱上层楼。为赋新词强说愁。 而今识尽愁滋味，欲说还休。欲说还休。却道天凉好个秋。

文档库异常

故障状态

重启文档库服务器后

公告

少年不识愁滋味，爱上层楼。爱上层楼。为赋新词强说愁。而今识尽愁滋味，欲说还休。欲说还休。却道天凉好个秋。