select、poll和epoll
在单线程并发服务器中,select/poll/epoll可以高效的处理多个连接的数据,下面具体分析三者的区别。
1. select函数
函数原型:
int select( int nfds, //fdset集合中最大描述符值加1 fd_set *readfds, //读事件文件描述符数组 fd_set *writefds, //写事件文件描述符数组 fd_set *exceptfds, //错误事件文件描述符数组 struct timeval *timeout //超时事件,该结构被内核修改,其值为超时剩余时间 );
其中 fdset是一个位数组,其大小限制为_FD_SETSIZE(1024)位数组的每一位代表的是其对应的描述符是否需要被检查。
常用的操作有
int poll (struct pollfd *fds, unsigned int nfds, int timeout);
和select()不一样,poll()没有使用低效的三个基于位的文件描述符set,而是采用了一个单独的结构体pollfd数组,由fds指针指向这个组。
struct pollfd { int fd; /* file descriptor */ short events; /* requested events to watch */ short revents; /* returned events witnessed */ };
每一个pollfd结构体指定了一个被监视的文件描述符,可以传递多个结构体,指示poll()监视多个文件描述符。每个结构体的events域是监视该文件描述符的事件掩码,由用户来设置这个域。revents域是文件描述符的操作结果事件掩码。内核在调用返回时设置这个域。events域中请求的任何事件都可能在revents域中返回。合法的事件如下:
POLLIN
有数据可读。
POLLRDNORM
有普通数据可读。
POLLRDBAND
有优先数据可读。
POLLPRI
有紧迫数据可读。
POLLOUT
写数据不会导致阻塞。
POLLWRNORM
写普通数据不会导致阻塞。
POLLWRBAND
写优先数据不会导致阻塞。
POLLMSG
SIGPOLL消息可用。
此外,revents域中还可能返回下列事件:
POLLER
指定的文件描述符发生错误。
POLLHUP
指定的文件描述符挂起事件。
POLLNVAL
指定的文件描述符非法。
这些事件在events域中无意义,因为它们在合适的时候总是会从revents中返回。
POLLIN | POLLPRI等价于select()的读事件,POLLOUT | POLLWRBAND等价于select()的写事件。POLLIN等价于POLLRDNORM | POLLRDBAND,而POLLOUT则等价于POLLWRNORM。
例如,要同时监视一个文件描述符是否可读和可写,我们可以设置events为POLLIN | POLLOUT。在poll返回时,我们可以检查对应于文件描述符请求的events结构体的revents中的标志。如果POLLIN事件被设置,则文件描述符可以被读取而不阻塞。如果POLLOUT被设置,则文件描述符可以写入而不导致阻塞。这些标志并不是互斥的:它们可能被同时设置,表示这个文件描述符的读取和写入操作都会正常返回而不阻塞。
timeout参数指定等待的毫秒数,无论I/O是否准备好,poll都会返回。timeout指定为负数值表示无限超时;timeout为0指示poll调用立即返回并列出准备好I/O的文件描述符,但并不等待其它的事件。这种情况下,poll()就像它的名字那样,一旦选举出来,立即返回。
3. select/poll特点
int epoll_create(int size)
该函数生成一个epoll专用的文件描述符,其中的参数是指定生成描述符的最大范围。
int epoll_ctl( int epfd,//由 epoll_create 生成的epoll专用的文件描述符 int op, //要进行的操作例如注册事件,可能的取值EPOLL_CTL_ADD 注册、 //EPOLL_CTL_MOD 修改、EPOLL_CTL_DEL 删除 int fd, //关联的文件描述符 struct epoll_event *event//指向epoll_event的指针 )
int epoll_wait( int epfd,//由epoll_create 生成的epoll专用的文件描述符 struct epoll_event * events,//用于回传代处理事件的数组 int maxevents,//每次能处理的事件数 int timeout
//等待I/O事件发生的超时值
//为0的时候表示马上返回, //为-1的时候表示一直等下去,直到有事件为止 //任意正整数的时候表示等这么长的时间,如果一直没有事件,则在超时后返回 //一般如果网络主循环是单独的线程的话,可以用-1来等,这样可以保证一些效率 //如果是和主逻辑在同一个线程的话,则可以用0来保证主循环的效率 )
select 最不能忍受的是一个进程所打开的FD是有一定限制的,由FD_SETSIZE设置,默认值是2048。对于那些需要支持的上万连接数目的IM服务器来说显然太少了。这时候可以:
传统的select/poll另一个致命弱点就是当你拥有一个很大的socket集合,不过由于网络延时,任一时间只有部分的socket是"活跃"的,但是select/poll每次调用都会线性扫描全部的集合,导致效率呈现线性下降。
<4>内核微调;
这一点其实不算epoll的优点了,而是整个linux平台的优点。也许你可以怀疑linux平台,但是你无法回避linux平台赋予你微调内核的能力。比如,内核TCP/IP协议栈使用内存池管理sk_buff结构,那么可以在运行时期动态调整这个内存pool(skb_head_pool)的大小--- 通过echo XXXX>/proc/sys/net/core/hot_list_length完成。再比如listen函数的第2个参数(TCP完成3次握手的数据包队列长度),也可以根据你平台内存大小动态调整。