Socket  Programming Considerations

写Socket程序的时候需要注意设置下面的timeout,避免对方没有响应的时候,导致Socket程序挂起或等待时间过长

 

1.1         Accept Timeout

Accept timeout 仅对ServerSocket有用。ServerSocket 使用accept()方法来监听客户端Socket的连接。默认,ServerSocket.accept() 方法会一直阻塞直到有客户端来连接。通常,我们不需要设置accept timeout.

 

但有时候特殊情况,还是要考虑设置accept timeout.

比如: 程序A给程序B发了一个JMS消息,然后程序A启动一个Socket Server,想通过socket等待接收程序B的返回消息。如果不设置accept timeout, 并且程序B因为某些原因一直不能连接Socket Server,最终会导致程序A挂起。

 

Accept Timeout可以这样设置:

ServerSocket serverSocket = new ServerSocket(5555);

serverSocket.setSoTimeout(5000); // in milliseconds

while (true) {

    Socket socket = serverSocket.accept();

        …

}

 

1.2         Connect Timeout

当Client端连接Server端的时候,可以指定Connect Timeout

如果没有指定,会使用操作系统的默认值:

OS

Default TCP timeout

BSD

75 seconds

Linux

189 seconds

Solaris

225 seconds

Windows XP

21 seconds

 

Connect Timeout可以这样设置:

SocketAddress socketAddress = new InetSocketAddress(host, port);

socket = new Socket();

socket.connect(socketAddress, connectTimeout);

 

1.3         Receive Timeout

当socket从另一方接收数据时,可以设置Receive Timeout

默认没有timeout,socket会一直阻塞直到有数据可读取。

Receive Timeout可以这样设置:

Socket socket = new Socket(host, port);

socket.setSoTimeout(timeout);

 

1.4         Send Timeout

Send Timeout是socket给另一方发送数据时使用的。

不过Java里没有办法设置Send Timeout.

当然,socket发送数据的时候,会首先发送到本机OS的一个buffer内。一般只要一次发送的数据不是很大,即使对方挂起或暂时不能接收数据,也不会导致发送方挂起。

 

2.1       Socket ack (acknowledgement)

Socket ack是指当socket接收到数据之后,发送一个ack字符串(比如$ACK)给socket发送方。这样,socket发送方可以根据是否收到了ack判断对方是否收到了数据。

Socket ack是显示的在应用程序中加入的一种通讯协议。如果不使用ack,在socket通讯中,可能会丢失数据。

 

比如,socket client要连续的给socket server发送100条消息。如果我们在server收到第50条消息的时候,强行kill了server。那么查询client端发送的log,可能client端成功发送了51条。只有当client端发送第52条消息的时候才遇到异常。这样第51条消息就丢失了。

所以为了确保数据传输的准确性,我们可以引入ack协议。有时我们不仅要确保server不但收到了数据,而且还要保证server成功处理了数据。这时,可以等server成功处理完数据之后,再给client发ack。

 

2.2       Socket Keep Alive

Socket连接像数据库连接一样,属于重量型资源。如果我们频繁的创建socket、发送/接收数据、关闭socket,那么会有很大一部分时间浪费在socket的创建和关闭上。

所以,如果我们经常需要与同一个socket地址发送/接收数据时,应该考虑只创建一次socket,然后一直使用这个socket对象发送/接收数据。

 

2.3       Heartbeat

通常,我们会设置socket的receive timeout。这样,如果我们一直打开着socket (keep alive), 而很长时间又没有数据通讯,socket接收方就会timeout,最终导致打开的连接坏掉。

如果很长时间没有数据通讯,防火墙或代理服务器也可能会关闭打开的socket连接。

所以为了保证打开的socket连接一直可用,如果一段时间没有数据进行通讯(或指定一个时间间隔),我们可以显示的发送一个heartbeat消息(比如: $HRT)给对方,从而保证连接不会被异常关闭。

 

2.4       Socket Close

每一个socket对象会持有一个socket descriptor (其实就是file descriptor),操作系统对于socket descriptor有一个最大限制。因此当socket不再使用时,一定要记得关闭,即使socket连接失败或出现异常,只要socket对象不为null,一定要记得关闭。

下面图显示了,当socket关闭时,socket的状态变化(socket状态可以通过netstat命令查看)。更详细的解释,可以google一下。

 

当主动一方调用close(先调用close)时的状态变化:

ESTABLISHED -> FIN_WAIT_1-> FIN_WAIT_2 -> TIME_WAIT -> CLOSED

当被动一方调用close(后调用close)时的状态变化:

ESTABLISHED -> CLOSE_WAIT -> LAST_ACK -> CLOSED

通常,TIME_WAIT 是正常状态,过一段时间(2MSL, 1到4分钟)就会自动消失.

我们需要特别注意CLOSE_WAIT 状态:

1.如果很长时间才消失,表明socket server处理太慢,很多client已经连接到server,发送完数据并close了。

2.如果一直也不消失,表明有socket没有正常close (对方已经close了)

 

2.5   SO_REUSEADDR Option

当socket主动调用close的时候,从上面可以知道,它最终会进入TIME_WAIT 状态,需要过1到4分钟,才能完全close。

 

当socket处于TIME_WAIT 状态时,它仍然占用正在使用的IP/PORT。这样,如果我们的程序(比如socket server)使用了一个固定的IP/PORT,当socket处于TIME_WAIT 状态时,程序将不能立即重启,会出现端口占用错误。

 

Socket提供了一个setReuseAddress()方法,可以设置当socket处于TIME_WAIT状态时,是否允许其它进程绑定这个端口。

 

如果我们正在开发socket server,一定要记得调用ServerSocket.setReuseAddress(true).

Client socket也有这个方法,而且有时可能需要指明client连接server时所使用的本地IP/PORT(一般不用指明,系统会随机选择一个PORT)。但实际测试,在client socket上设置这个方法在Windows和Solaris下并不起作用。当socket处于TIME_WAIT 状态时,重启client仍然出现端口占用错误。上网搜索了很长时间,很多人都碰到了这个问题,可能是操作系统底层socket实现问题。因为测试使用C语言开发的socket client,同样也有这个错误。有人说LINUX下好用,还有就是可以尝试修改tcp_time_wait_interval来减小TIME_WAIT等待时间