WCF之诡异通讯超时

一、诡异现象

1、 在对一个项目的现场实施调试中,应用软件系统在获取服务端数据时报“操作失败”,经日志反馈为:WCF通讯超时!

2、 经过反复测试发现:并不是所有操作都会失败,像登录、增、删、改、查等简单操作能正常运行,只是在获取某种数据量比较大的数据时会出现操作失败的情况。

3、现场环境为:Dell R710(服务器)+Dell商用机(客户端)+光纤网.

4、我们的系统是C/S和B/S统一的行业应用软件,采用WCF进行分布式通讯,并提供统一的应用服务。

 

二、问题分析

1、  电话对现场进行指导,把超时时间设置为10分钟后照样有问题。

这让我很纳闷,就算是压力测试我们也要求即使是大数据也要在2分钟这内返回,何况是10分钟!

系统日志信息为:

请求通道在等待 00:10:00 以后答复时超时。增加传递给请求调用的超时值,或者增加绑定上的 SendTimeout 值。分配给此操作的时间可能是更长超时的一部分。

 

Server stack trace:

   在 System.ServiceModel.Channels.RequestChannel.Request(Message message, TimeSpan timeout)

   在 System.ServiceModel.Dispatcher.RequestChannelBinder.Request(Message message, TimeSpan timeout)

   在 System.ServiceModel.Channels.ServiceChannel.Call(String action, Boolean oneway, ProxyOperationRuntime operation, Object[] ins, Object[] outs, TimeSpan timeout)

   在 System.ServiceModel.Channels.ServiceChannel.Call(String action, Boolean oneway, ProxyOperationRuntime operation, Object[] ins, Object[] outs)

   在 System.ServiceModel.Channels.ServiceChannelProxy.InvokeService(IMethodCallMessage methodCall, ProxyOperationRuntime operation)

   在 System.ServiceModel.Channels.ServiceChannelProxy.Invoke(IMessage message)

 

Exception rethrown at [0]:

   在 System.Runtime.Remoting.Proxies.RealProxy.HandleReturnMessage(IMessage reqMsg, IMessage retMsg)

   在 System.Runtime.Remoting.Proxies.RealProxy.PrivateInvoke(MessageData& msgData, Int32 type)

   在 ……

2、  同样的数据、同样的程序,在调试人员的笔记本上进行单机操作进能正常运行。

怀疑是不是光网运行不稳定?但经过测试网络运行稳定,光网速度应该也有保障,由此初步排除此想法。

3、  当我们无意中使用在服务器上的客户端,访问调试人员自带的笔记本上的服务时一切工作正常,时间在2秒之内!也就是说客户端和服务器端互换后即能工作正常。

难道服务器处理能力还不如一笔记本?这是什么道理!莫非是操作系统出问题了?这个结论可不敢乱下,必竟在此服务器上还运行了公司的其它产品,人家一点问题都没有(虽说他们都没有较大数据的传输)!

4、没有办法,也只能让实施人员偷偷的重装一下系统试试,死马当活马医了。结果重装后一切工作正常,医好了,返回时间在2秒以内!

10分钟又做何解呢?

 

三、现场模拟

问题虽然可以解决了,但是却给不了定论,也出不了报告!所以必须亲自搭建环境,找找原凶。

1、从库房借出同一型号的机器。

2、从相关部门找到操作系统原盘(注:我们一般用的都是5元版的,我认错!正版的只买了少数几个),并在服务器上安装。

3、光网未能搭建。

4、安装应用软件,还原数据。

结论:

问题重现!

 

四、不解

1、小数据的服务可以正常,一些增、删、改等大部分操作都能正常工作,说明WCF服务工作正常。

 

2、只在当超过某一级别的数据级的操作会失败。

我对WCF的配置文件进行更改,使期支持超大数据传输及10分钟的超时限制。

 <binding name="WSHttpBinding_Default" closeTimeout="00:01:00"

        openTimeout="00:01:00" receiveTimeout="00:10:00" sendTimeout="00:10:00"

        bypassProxyOnLocal="false" transactionFlow="false" hostNameComparisonMode="StrongWildcard"

        maxBufferPoolSize="2147483647" maxReceivedMessageSize="2147483647"

        messageEncoding="Text" textEncoding="utf-8" useDefaultWebProxy="true"

        allowCookies="false">

      <readerQuotas maxDepth="32" maxStringContentLength="2147483647" maxArrayLength="2147483647"

          maxBytesPerRead="2147483647" maxNameTableCharCount="2147483647" />

 

但最终还是失败!(图)

 

3、经过对详细的工作日志分析发现“服务已调用且成功返回”。也就是说问题出在了应用程序可控制的范围之处的WCF模块!(但有与1的观点相左)

 

五、抓包分析

没办法了,只能抓包

 

1、分析工具:

Wireshark 网络封包分析软件。

2、小数据请求分析:

①:正常情况下报文

请求方:192.100.0.14

服务方:192.100.0.13

结论:

应答一致,通讯通畅。

 

②:Dell R710出厂环境下的报文情况

请求方:192.100.0.14

服务方:192.100.0.13

结论:

请求方数据(含发送的和接收的)正常,但服务方未捕获任何请求方的TCP数,但最终数据转发成功所采用的方式不明。

 

3、大数据请求:

 ①:正常报文与小数据请求类似,应答一致,通讯通畅。

 ②:Dell R710出厂环境下的报文情况(Win7客户端)

请求方:192.100.0.14

服务方:192.100.0.13

结论:

请求方与服务方协调不一致,服务方频繁广播ARP信息“who has 192.100.1.15? Tell 192.100.0.14”直得怀疑。据Wireshark说明:“who has 192.100.1.15?Tell 192.100.0.14…”表示:主机192.100.15想发送数据给192.100.0.14,但它不知到192.100.0.14的MAC地址,从而向ARP询问。而本次通讯本质是发生在“192.100.1.13”和“192.100.1.14”之间,所以直接造成通讯无法正常进行。

 

 ③:Dell R710出厂环境的报文情况(WinXP客户端)

请求方:192.100.0.212

服务方:192.100.0.30

(服务方抓包迟缓,不能正确反映通讯情况)

结论:

请求方与服务方协调不一致,服务方发送的数据并不是正常的[ACK]报文,而是 [TCP segment of a reassembled PDU],而后请求方也会多次发送[TCP segment of a reassembled PDU]。查阅资料说明,该信息是指TCP层收到上层大块报文后分解成段后发出去。于是有个疑问,正常情况下TCP层可以把大段报文丢给IP层,让IP层完成分段,这就是一般我们能看到[ACK]报文,但现在TCP层分了段,抓包分析不了,也明显造成了通讯双方无法正常识别对方的信息。

 

六、清空ARP列表

怀疑:ARP攻击

arp –d

该环境下可能存在ARP异常,于是在大数据包通讯进行时,由命令窗口中输入“arp -d”清空当前arp列表,立即数据传输正常进行,但稍后的数据传输会再次受到影响,不能根本解除问题。

 

七、开启ARP保护,正常!

1、用杀毒软件进行全盘扫描,并未报出病毒和木马。也只能使第三方工具来进行防护。我这里使用了一款免费的工具(360)。

2、我只是个菜鸟对病毒和木马不了解。有兴趣的朋友可就此分析一下WCF的通讯细节,但目前已基本证实问题主要是服务主机受到了ARP攻击知成了通讯的异常。

3、 希望本能给碰到同样问题的朋友一些启发。

 

posted @ 2012-10-16 14:56  家住腊树下  阅读(4486)  评论(7编辑  收藏  举报