基于socket server push技术的聊天室实现(上)
基于推技术的聊天室在国内现在已经比较常见。这种聊天室最大的特点是不使用浏览器每格一段时间就刷新的方式,而让服务器不定时往客户端写聊天的内容。当有人发言时,屏幕上才会出现新聊天内容,而且聊天内容是不断向上滚动的,如果浏览器状态栏在的话,可以看到进度条始终处于下载页面状态。即使这种聊天室容纳上百人,性能不会明显的降低。而以往的CGI或活动服务器端脚本做的聊天室性能明显就不行了。
推技术的聊天室聊天室基本原理是,不使用HTTPD服务器程序,由自己的Socket程序监听服务器的80端口,根据html规范,在接收到浏览器的请求以后,模仿www服务器的响应,将聊天内容发回浏览器。在浏览器看来就象浏览一个巨大的页面一样始终处于页面接收状态。也就是说,我们不再使用CGI等方式来处理聊天的内容,而采用我们自己的程序来处理所有的事务。实际上它就是一个专门的聊天服务器,即一个简化了的专门用于聊天的WWW服务器。
在具体讨论程序的实现之前,我们先来解析一下相关的技术。
◆http请求和应答过程
http协议是浏览器与WWW服务器之间通信的标准,Socket聊天服务器应当遵守这个协议。实际上,我们只需要使用其中的一小部分就可以了。
http使用了C/S(客户/服务器)模式,其中浏览器是http客户,浏览某个页面实际上就是打开一个Socket连接,发送一个请求到WWW服务器,服务器根据所请求的资源发送应答给浏览器,然后关闭连接。客户和服务器之间的请求和应答有一定的格式要求,只要按照这个格式接收请求发送应答,浏览器就会正常的显示你所需要的的内容。
请求和应答具有类似的结构,包括:
· 一个初始行
· 0个或多个header lines
· 一个空行
· 可选的信息
我们看看一个浏览器发出的请求:
当我们浏览网页http://www.somehost.com/path/file.html的时候,浏览器首先打开一个到主机www.somehost.com的80端口的socket,然后发送以下请求:
GET /path/file.html HTTP/1.0
From: someuser@somehost.com
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows NT 5.0; DigExt)
[空行]
第一行GET /path/file.html HTTP/1.0是我们需要处理的核心。由以空格分隔的三部分组成,方法(method):GET,请求资源:/path/file.html,http版本:HTTP/1.0。
服务器将会通过同一个socket用以下信息回应:
HTTP/1.0 200 OK
Date: Fri, 31 Dec 1999 23:59:59 GMT
Content-Type: text/html
Content-Length: 1354
<html>
<body>
<h1>Hello world!</h1>
(其他内容)...
</body>
</html>
第一行同样也包括三部分:http版本,状态码,与状态码相关的描述。状态码200表示请求成功。
发送完应答信息以后,服务器就会关闭socket。
◆服务器模型
一般网络服务器主要分为两种:
(1)循环服务器(iterative server):它是一个时刻只能处理一个请求的服务器,多个请求同时到来将会放在请求队列里。TCP套接字服务器一般很少采用循环方式,因为假如某个客户和服务器的连接出了问题,会导致整个服务器挂掉。它常为UDP套接字服务器所采用。
(2)并发服务器(concurrent server):在每个请求到来以后分别产生一个新进程来处理这个请求所产生的连接。TCP的Socket服务器大多采用并发方式提供服务。
并发服务器有多种实现方法:
i 服务器和每个接收到的客户机进行连接,创建一个新的子进程处理这个客户机请求。
ii 服务器预先创建多个子进程,由这个子进程处理客户机请求。这种方式被称为“预创建(prefork)”服务器。
iii 服务器用函数select实现对多个客户机连接的多路复用。
iv 超级服务器(inet)激活的服务器。
并发服务器由于其算法而具有与生俱来的快速响应优势,而且当某一个用户与服务器通信死锁不会影响其他进程,但由于多个进程之间需要通过进程间通信实现信息交换,而且fork新进程所带来的开销随着用户数量的增加越来越大,因此原始的并发服务器并不一定是最好的选择。JAVA语言给我们带来的方便的线程机制,使我们可以用多线程来代替多进程,实现并发服务器,为我们进行快速的商业版本的聊天室的开发提供了优势。
值得注意的是,在linux下,JAVA并没有实现真正的多线程,本质上仍然是多进程。
◆POST与GET
提交form表单信息一般常用的有两种:POST或者GET。POST由于长度不受限制,而作为大多数form提交时使用的方法。GET方法通过URL来发送提交信息,由于URL被WWW服务器限制了长度,一般最长只能为1024字节,所以如果发送信息很长的话,就不能使用这种方法。
由于我们对聊天内容有长度限制,不会太长,而且普通浏览页面使用GET方法,使用GET方法提交form表单可以简化处理过程,所以我们可以使用这种方法来提交聊天内容。
我们感到美中不足的是GET方法将提交的内容简单的附在连接后边,我们如果能够将提交的内容进行HTML编码的话,就可以让客户舒服点了。
◆用JAVA实现并发SOCKET通信
如果以前做过C的SOCKET编程,那么这一段对你来说将不是什么难事。利用JAVA的多线程机制我们可以非常方便的实现并发服务。
每当我们知道服务器主程序创建一个新的套接字连接(即成功地调用了accept()方法)的时候,就启动一个新的线程来负责本服务器和该客户之间的连接,主程序将返回并等待下一个连接。为了实现这个方案,本服务器主循环应该采用如下形式:
while(true)
{ Socket newjoin=s.accept();
Tread t=new ThreadedChatHandle(newjoin);
t.start();
}
ThreadedChatHandle类是从Thread类衍生出的处理聊天过程的子类,它的run()方法包括了服务器和客户的通信循环——判断客户的请求(例如登录、发言、刷新在线列表),处理发言数据,发送聊天信息等等。下面是一个服务器程序的例子,可以帮助初学者尽快理解。
import java.io.*;
import java.net.*;
public class ChatServer
{ public static void main(String[] args)
{ int I=1;
try
{ServerSocket s=new ServerSocket(8080);
/*创建一个监视8080端口的服务器套接字,如果需要,你可以改成80端口*/
for(;;)
{ Socket newjoin=s.accept();
/*等待一个连接。如果这个连接没有被创建,本方法阻塞当前线程。返回值是一个
Socket对象,服务器程序利用这个对象可以与连接的客户通信。*/
System.out.println(“新连接”+i);
new ThreadedChatHandle(newjoin,i).start();
/* ThreadedChatHandle(Socket theS,int c)是我们自己定义的聊天服务类,这个
类在后边我们有进一步描述*/
i++;
}
}
catch(Exception e)
{ System.out.println(e);
}
}
……
}
多进程(线程)并发服务的一个关键问题是,如何实现进程(线程)间通信。每个客户的发言(包括表情和动作等选项)都需要放在一个公共的地方,让所有的输出线程都能够获得它。解决的方法有很多,比如说放在数据库里,放在大家都有权限的dat文件里,或直接用管道实现进程间通信。其中,对一个聊天室服务器来说,第一种方法是最傻的,太消耗系统资源,而且使程序执行效率变慢,可能出错环节增多。而使用管道通信的方式,把所有发言数据都保存在内存里,不但可以获得最高的执行效率,安全的执行过程,也不用考虑线程同步的问题。不要以为所有的发言数据会很多,其实服务器端只要保存最后100句就已经很了不起了,不是吗?
JAVA里关于管道的API有:
●Java.io.PipedInputStream
PipldInputStream():
创建新的管道输入流,且它没有关联一个管道输出流。
PipldInputStream(PipldOutputStream out):
创建新的管道输入流,且从管道输出流out中读取数据。
connect(PipldOutputStream out):
关联一个管道输出流,且这个流读取数据。
●Java.io.PipedOutputStream
PipldOutputStream():
创建新的管道输出流,且它没有关联一个管道输入流。
PipldOutputStream(PipldInputStream in):
创建新的管道输出流,并输出数据到in。
connect(PipldInputStream in):
关联一个管道输入流,并输入数据到in。
◆Daemon的实现
实际上,我还没有找到直接在JAVA中实现后台守护进程的方法。实现一个后台进程需要完成一系列的工作,包括:关闭所有的文件描述字;改变当前工作目录;重设文件存取屏蔽码(umask) ;在后台执行;脱离进程组;忽略终端I/O信号;脱离控制终端。
JAVA中有一个叫Daemon Thread的东西,我没有使用过。据介绍,这种叫服务线程的东东唯一的目的就是为其它线程提供服务。而一个程序里如果只剩下服务线程的话,这个程序就会停止(和我们的初衷简直就是南辕北辙)。有兴趣的朋友可以看看相关的内容,在java.lang.Thread.setDaemon()。
虽然我们不能用JAVA实现后台服务守护进程,不过我们还有JAVA的C接口,问题总有解决的办法。
◆异常处理
在Socket通信过程中很容易出现一些意外情况,如果不加处理直接发送数据,就可能导致程序意外退出。例如,客户关闭了socket后,服务器继续发送数据,这就会导致异常。为避免这一情况的发生,我们必须对它进行处理,一般情况下,只需要简单地忽略这个信号就可以了。幸好,JAVA的异常处理机制还比较强壮。
◆用户断线判断和处理
许多情况下,用户不是通过提交“离开”按钮离开聊天室,这时候就需要判断用户是否断线了。一般用户断线可能包括以下几种情况:方法是:当用户关闭浏览器,或者点击了浏览器stop按钮,或者跳转到其他网页的时候(如果用JAVASCRIPT弹出一个聊天窗口的话,那么这两种情况我们是能够避免的——大不了再禁止右键),相对应的socket将会变成可读状态,而此时读出的数据却是空字符串。
利用这个原理,只要在某个可读的socket读取数据时,读到的却是空数据,那么我们就可以断定,与这个socket相对应的用户断线了。
◆防止连接超时断线
如果浏览器在一段时间内没有接到任何数据,那么就会出现超时错误。要避免这一错误,必须在一定间隔内发送一些数据,在我们这个应用系统里,可以发送一些html注释。发送注释的工作可以直接插入聊天内容之间来完成。
推技术的聊天室聊天室基本原理是,不使用HTTPD服务器程序,由自己的Socket程序监听服务器的80端口,根据html规范,在接收到浏览器的请求以后,模仿www服务器的响应,将聊天内容发回浏览器。在浏览器看来就象浏览一个巨大的页面一样始终处于页面接收状态。也就是说,我们不再使用CGI等方式来处理聊天的内容,而采用我们自己的程序来处理所有的事务。实际上它就是一个专门的聊天服务器,即一个简化了的专门用于聊天的WWW服务器。
在具体讨论程序的实现之前,我们先来解析一下相关的技术。
◆http请求和应答过程
http协议是浏览器与WWW服务器之间通信的标准,Socket聊天服务器应当遵守这个协议。实际上,我们只需要使用其中的一小部分就可以了。
http使用了C/S(客户/服务器)模式,其中浏览器是http客户,浏览某个页面实际上就是打开一个Socket连接,发送一个请求到WWW服务器,服务器根据所请求的资源发送应答给浏览器,然后关闭连接。客户和服务器之间的请求和应答有一定的格式要求,只要按照这个格式接收请求发送应答,浏览器就会正常的显示你所需要的的内容。
请求和应答具有类似的结构,包括:
· 一个初始行
· 0个或多个header lines
· 一个空行
· 可选的信息
我们看看一个浏览器发出的请求:
当我们浏览网页http://www.somehost.com/path/file.html的时候,浏览器首先打开一个到主机www.somehost.com的80端口的socket,然后发送以下请求:
GET /path/file.html HTTP/1.0
From: someuser@somehost.com
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows NT 5.0; DigExt)
[空行]
第一行GET /path/file.html HTTP/1.0是我们需要处理的核心。由以空格分隔的三部分组成,方法(method):GET,请求资源:/path/file.html,http版本:HTTP/1.0。
服务器将会通过同一个socket用以下信息回应:
HTTP/1.0 200 OK
Date: Fri, 31 Dec 1999 23:59:59 GMT
Content-Type: text/html
Content-Length: 1354
<html>
<body>
<h1>Hello world!</h1>
(其他内容)...
</body>
</html>
第一行同样也包括三部分:http版本,状态码,与状态码相关的描述。状态码200表示请求成功。
发送完应答信息以后,服务器就会关闭socket。
◆服务器模型
一般网络服务器主要分为两种:
(1)循环服务器(iterative server):它是一个时刻只能处理一个请求的服务器,多个请求同时到来将会放在请求队列里。TCP套接字服务器一般很少采用循环方式,因为假如某个客户和服务器的连接出了问题,会导致整个服务器挂掉。它常为UDP套接字服务器所采用。
(2)并发服务器(concurrent server):在每个请求到来以后分别产生一个新进程来处理这个请求所产生的连接。TCP的Socket服务器大多采用并发方式提供服务。
并发服务器有多种实现方法:
i 服务器和每个接收到的客户机进行连接,创建一个新的子进程处理这个客户机请求。
ii 服务器预先创建多个子进程,由这个子进程处理客户机请求。这种方式被称为“预创建(prefork)”服务器。
iii 服务器用函数select实现对多个客户机连接的多路复用。
iv 超级服务器(inet)激活的服务器。
并发服务器由于其算法而具有与生俱来的快速响应优势,而且当某一个用户与服务器通信死锁不会影响其他进程,但由于多个进程之间需要通过进程间通信实现信息交换,而且fork新进程所带来的开销随着用户数量的增加越来越大,因此原始的并发服务器并不一定是最好的选择。JAVA语言给我们带来的方便的线程机制,使我们可以用多线程来代替多进程,实现并发服务器,为我们进行快速的商业版本的聊天室的开发提供了优势。
值得注意的是,在linux下,JAVA并没有实现真正的多线程,本质上仍然是多进程。
◆POST与GET
提交form表单信息一般常用的有两种:POST或者GET。POST由于长度不受限制,而作为大多数form提交时使用的方法。GET方法通过URL来发送提交信息,由于URL被WWW服务器限制了长度,一般最长只能为1024字节,所以如果发送信息很长的话,就不能使用这种方法。
由于我们对聊天内容有长度限制,不会太长,而且普通浏览页面使用GET方法,使用GET方法提交form表单可以简化处理过程,所以我们可以使用这种方法来提交聊天内容。
我们感到美中不足的是GET方法将提交的内容简单的附在连接后边,我们如果能够将提交的内容进行HTML编码的话,就可以让客户舒服点了。
◆用JAVA实现并发SOCKET通信
如果以前做过C的SOCKET编程,那么这一段对你来说将不是什么难事。利用JAVA的多线程机制我们可以非常方便的实现并发服务。
每当我们知道服务器主程序创建一个新的套接字连接(即成功地调用了accept()方法)的时候,就启动一个新的线程来负责本服务器和该客户之间的连接,主程序将返回并等待下一个连接。为了实现这个方案,本服务器主循环应该采用如下形式:
while(true)
{ Socket newjoin=s.accept();
Tread t=new ThreadedChatHandle(newjoin);
t.start();
}
ThreadedChatHandle类是从Thread类衍生出的处理聊天过程的子类,它的run()方法包括了服务器和客户的通信循环——判断客户的请求(例如登录、发言、刷新在线列表),处理发言数据,发送聊天信息等等。下面是一个服务器程序的例子,可以帮助初学者尽快理解。
import java.io.*;
import java.net.*;
public class ChatServer
{ public static void main(String[] args)
{ int I=1;
try
{ServerSocket s=new ServerSocket(8080);
/*创建一个监视8080端口的服务器套接字,如果需要,你可以改成80端口*/
for(;;)
{ Socket newjoin=s.accept();
/*等待一个连接。如果这个连接没有被创建,本方法阻塞当前线程。返回值是一个
Socket对象,服务器程序利用这个对象可以与连接的客户通信。*/
System.out.println(“新连接”+i);
new ThreadedChatHandle(newjoin,i).start();
/* ThreadedChatHandle(Socket theS,int c)是我们自己定义的聊天服务类,这个
类在后边我们有进一步描述*/
i++;
}
}
catch(Exception e)
{ System.out.println(e);
}
}
……
}
多进程(线程)并发服务的一个关键问题是,如何实现进程(线程)间通信。每个客户的发言(包括表情和动作等选项)都需要放在一个公共的地方,让所有的输出线程都能够获得它。解决的方法有很多,比如说放在数据库里,放在大家都有权限的dat文件里,或直接用管道实现进程间通信。其中,对一个聊天室服务器来说,第一种方法是最傻的,太消耗系统资源,而且使程序执行效率变慢,可能出错环节增多。而使用管道通信的方式,把所有发言数据都保存在内存里,不但可以获得最高的执行效率,安全的执行过程,也不用考虑线程同步的问题。不要以为所有的发言数据会很多,其实服务器端只要保存最后100句就已经很了不起了,不是吗?
JAVA里关于管道的API有:
●Java.io.PipedInputStream
PipldInputStream():
创建新的管道输入流,且它没有关联一个管道输出流。
PipldInputStream(PipldOutputStream out):
创建新的管道输入流,且从管道输出流out中读取数据。
connect(PipldOutputStream out):
关联一个管道输出流,且这个流读取数据。
●Java.io.PipedOutputStream
PipldOutputStream():
创建新的管道输出流,且它没有关联一个管道输入流。
PipldOutputStream(PipldInputStream in):
创建新的管道输出流,并输出数据到in。
connect(PipldInputStream in):
关联一个管道输入流,并输入数据到in。
◆Daemon的实现
实际上,我还没有找到直接在JAVA中实现后台守护进程的方法。实现一个后台进程需要完成一系列的工作,包括:关闭所有的文件描述字;改变当前工作目录;重设文件存取屏蔽码(umask) ;在后台执行;脱离进程组;忽略终端I/O信号;脱离控制终端。
JAVA中有一个叫Daemon Thread的东西,我没有使用过。据介绍,这种叫服务线程的东东唯一的目的就是为其它线程提供服务。而一个程序里如果只剩下服务线程的话,这个程序就会停止(和我们的初衷简直就是南辕北辙)。有兴趣的朋友可以看看相关的内容,在java.lang.Thread.setDaemon()。
虽然我们不能用JAVA实现后台服务守护进程,不过我们还有JAVA的C接口,问题总有解决的办法。
◆异常处理
在Socket通信过程中很容易出现一些意外情况,如果不加处理直接发送数据,就可能导致程序意外退出。例如,客户关闭了socket后,服务器继续发送数据,这就会导致异常。为避免这一情况的发生,我们必须对它进行处理,一般情况下,只需要简单地忽略这个信号就可以了。幸好,JAVA的异常处理机制还比较强壮。
◆用户断线判断和处理
许多情况下,用户不是通过提交“离开”按钮离开聊天室,这时候就需要判断用户是否断线了。一般用户断线可能包括以下几种情况:方法是:当用户关闭浏览器,或者点击了浏览器stop按钮,或者跳转到其他网页的时候(如果用JAVASCRIPT弹出一个聊天窗口的话,那么这两种情况我们是能够避免的——大不了再禁止右键),相对应的socket将会变成可读状态,而此时读出的数据却是空字符串。
利用这个原理,只要在某个可读的socket读取数据时,读到的却是空数据,那么我们就可以断定,与这个socket相对应的用户断线了。
◆防止连接超时断线
如果浏览器在一段时间内没有接到任何数据,那么就会出现超时错误。要避免这一错误,必须在一定间隔内发送一些数据,在我们这个应用系统里,可以发送一些html注释。发送注释的工作可以直接插入聊天内容之间来完成。