大数据量冲击下Windows网卡异常分析定位

背景

mqtt的服务端ActiveMQ在windows上，多台PC机客户端不停地向MQ发送消息。

观察MQ自己的日志data/activemq.log里显示，TCP链接皆异常断开。此时尝试从服务端ping其他客户端，发现皆无法ping通。可知服务端网卡必定故障无法正常运作。

原有的组网采用多PC通过hub互联，工作方式上讲hub是广播模式，多PC大数据量发送必然引发广播风暴，使网卡超载运行直至异常。
改为百兆交换机后，交换机能够隔离冲突域，数据交互情况明显有所好转。但仍偶现网卡故障的情况。
参考linux的网卡收包理论，通过修改conf/activemq.xml，为Mqtt_Uri加上transport.ioBufferSize=1048576&transport.socketBufferSize=4194304。调整服务端MQ的接收socketBuffer为4M，此后网卡能够保持长期正常运行。说明增加socketBuffer可以减缓网卡往内存塞包的压力，降低网卡丢包又引发重传的恶性循环的可能，但也证明此时网卡的负载能力已濒临临界点。
与此同时，观察windows的任务管理器的联网这一项下，发现大数据量发送时网络使用率基本持续在100%，证明网卡已近超载的猜想正确。
服务器的网卡本身是千兆网卡，但通过Auto-negotiation降速为了百兆。将百兆交换机更换为千兆交换机，任务管理器里观察到线路速度显示为1Gbps，网络使用率明显未超过10%。此后数据收发长期正常，证明网卡超载运行的情况已经解决。

posted @ 2017-01-06 13:56 SupremeHover 阅读(1136) 评论(0) 收藏举报

刷新页面返回顶部