I/0模型

http://hi.baidu.com/ywdblog/blog/item/85f0a2991623ae0e6e068c9a.html

在高性能服务器中,一般采用非阻塞网络IO,单进程事件驱动的架构。这种架构的核心是事件驱动机制。目前Linux常用select,poll和epoll系统调用来完成事件驱动。select和poll是传统的unix事件驱动机制,但它们有很大的缺点:在大量的并发连接中,如果冷连接较多,select和poll的性能会因为并发数的线性上升而成平方速度的下降,这是因为调用者在每次select和poll返回时都要检测每个连接是否有事件发生,当连接数很大时,系统开销会非常大。另外select和poll每次返回时都要从内核向用户空间复制大量的数据,这样的开销也很大。所以,select和poll并不是处理网络IO的最好方案。

于是从Linux2.5开始,出现了一个新的系统调用epoll,它不仅可以完成select/epoll的功能,而且性能更高,功能更强。epoll的优点:1,每次只返回有事件发生的文件描述符信息,这样调用者不用遍历整个文件描述符队列,而且系统不用从内核向用户空间复制大量无用的数据;2,epoll可以设置不同的事件触发方式:边缘触发和电平触发,为用户使用epoll提供了灵活性。 epoll也有缺点:1,在冷连接很少的情况下,性能与select和poll相比并没有什么优势;2,目前的实现还不完整,不支持EPOLLHUP事 件,在边缘触发情况下,无法处理客户端网络连接主动断开;3,使用比较麻烦,如何边缘触发方式必须要小心处理,否则程序可能无法完成功能,在采用电平触发 方式时,调用者要避免epoll_wait发生空转。

一, 磁盘IO

Linux磁盘IO有同步模式和异步模式。同步模式就是常见read/write系统调用,这两个系统调用都被认为是低速系统调用,执行时可能会使进程阻塞,在单进程的服务器中,这会使系统性能下降。所以Linux提供了异步磁盘IO。目前Linux中主要有两种异步IO解决方案:1,由glibc 实现的Posix AIO(aio_read,aio_write,….),采用线程或实时信号来通知IO完成,用户也可以采用轮询方式来检测IO是否完成;2,由kernel实现的Linux AIO(io_setup, io_getevents,…),事件的通知机制(io_getevents)是采用类似select的语义。它们的共同点都是采用了多线程的方式来处理阻塞的磁盘IO,使其看起来像异步的。 这两种方式主要区别是:1,Posix AIO是在用户态下实现的而Linux AIO是在内核中实现的;2,事件的通知机制不同,前面已说明。Posix AIO和Linux AIO性能的比较还没有做过。Linux的异步磁盘IO机制的缺点是:无论Posix AIO还是Linux AIO在处理新的IO请求时都会做创建线程的操作,这样比较的费时。

Linux磁盘IO还可以用内存映射的方式,优点是:1,可以避免在用户空间和内核空间之间 复制数据;2,如果把小文件合成大文件,对大文件进行内存映射,可以减少open系统调用的次数。但内存映射的缺点也很明显:1,由于3G以上的大文件无 法映射进内存,使用有局限性;2,如果所访问的页面不在内存中,需要进行换页操作,进程会阻塞。虽然合理地使用mincore可以避免进程阻塞,但编程实 现难度较高。

如果是从磁盘向网络传送数据的话还可以使用sendfile,sendfile可以在内核空间中直接从磁盘向网络传送数据,避免了内存复制。

二, 同时处理网络IO和磁盘IO

数据服务器要同时处理大量的并发网络连接,而且处理这些网络连接需要进行大量的磁盘IO,如读取文件。在这样情况下,我们提出了两种模型:

1,分离网络IO和磁盘IO。这种模型是指用一个进程(RelayServer)来处理大量并发的网络连接,另一个进程(DataServer)处理磁盘 IO,两个进程通过一个TCP连接交换信息,当客户(Client)请求到达,RelayServer将其转发给 DataServer,DataServer去磁盘上读数据,读好数据后,将数据回传给RelayServer,RelayServer再转发给 Client。

2,不分离网络IO和磁盘IO。这种模型是指只用一个进程(DataServer)来同时处理磁盘IO和网络IO。

下面讨论这两种模型的实现方案:

无论是采用哪种模型,都涉及到对大量磁盘IO的处理。根据前面对Linux磁盘IO的讨论,我们试验了以下几种磁盘IO的实现方式:

1,Posix AIO,实时信号通知。由于磁盘IO通常会在较短的时间内完成,进程频繁地被信号中断,系统调用频繁自动重启动,造成整个性能的下降。另外,因为无法向信号处理函数传参数,信号处理函数很难实现较为复杂的功能。

2,Posix AIO,线程通知。每完成一个IO请求,系统就会创建线程,开销较大。

3,Posix AIO,轮询。很难跟DataServer的epoll逻辑结合,只有不断轮询,性能较低。
Linux AIO未作测试,性能未知。内存映射无法处理很大的文件,也未采用。

从上面看来,Linux提供的异步IO机制无法满足我们的需求,于是我们自己在用户层实现了异步IO。我们的异步IO主要框架是采用预先创建线程,形成线 程池。处理流程:用户发IO请求,线程池中的工作线程被唤醒,工作线程采用一般的read/write系统调用处理IO(为了保证磁盘IO能够完成,我们 用的是readn和writen),工作线程做完IO后通过一个管道向epoll通知,并把用户IO的请求挂到完成队列上,epoll收到通知后,从完成 队列中取下,再做相应的操作。根据我们的性能比较,这种方式比前面几种实现性能都要高,而且实现起来比较容易。所以我们对磁盘IO的处理主要采用这种方 式,但针对不分离模型和分离模型的不同细节,又有所变化。

针对不分离模型,我们系统使用epoll管理socket描述符和一个管道描述符(磁盘IO 用管道来通知epoll)。epoll只处理socket的读事件,负责完整收到Client一个请求,然后把请求交给磁盘IO。磁盘IO使用线程池,跟 前面的区别在于,工作线程在读数据时使用sendfile,直接将磁盘数据发给对应的网络套接字,如果sendfile返回EAGAIN错误或者没发完数 据,就更新请求,然后把请求重新放回队列。

分离的模型中DataServer也是用epoll管理socket描述符和与磁盘IO通信的管道描述符。epoll需要处理socket的读事件和写事件,负责从RelayServer收请求和向RelayServer发送数据。磁盘IO与前面的模型一致。

不分离模型和分离模型的对比结论:

1,不分离模型和分离模型在面对200左右并发连接数时性能上基本一致。测试表明:当请求读文件的大小较大时(超过256KB),无论OS对文件的缓存命 中率大小,两种模型所能达到的网络吞吐量都差不多(20-30MB/S)。并且网络吞吐量随着请求文件大小的增大而增大,在这种情况下,磁盘IO严重滞后 于网络IO和CPU的速度,所以网络吞吐量由磁盘IO的速度所决定。因为当读文件较大时,根据磁盘IO特点,磁盘吞吐量会较高,所以请求文件越大,网络吞 吐量越好。当请求文件的大小较小时(如16KB和64KB),如果OS文件缓存的命中率较高,磁盘IO在整个系统中几乎没有影响,网络的吞吐量基本可以达 到网卡的物理上限。但是,当OS文件缓存命中率很小时,由于磁盘IO很难高效地处理对小块数据的读,整个系统性能受制于磁盘IO,并且网络吞吐量和磁盘吞 吐量都很低(4MB/S)。总得来看,无论使用哪种模型,磁盘IO都是瓶颈。

2,不分离模型的优缺点。优点:1,不分离模型的实现较为容易,可以使用sendfile等高效的系统调用。2,由于对每个并发连接不需要分配大量的内存 缓冲区来缓存从磁盘读到的数据,对并发连接数的支持可以不受内存大小的限制,具有较好的伸缩性。缺点:可扩展性不足,比如对于客户端要求写文件就很难处 理,而且如果加上复杂的协议分析,性能可能会大幅度下降。

3,分离模型的优缺点。优点:扩展性好,可以专门对磁盘IO进行优化,而不必考虑其对同时处理大量并发网络连接的影响;针对网络IO也可以添加复杂协议的 分析,不必考虑对同时处理磁盘IO的影响。缺点:实现较为复杂,实现方案直接影响系统性能;用户接收数据的速率不平滑,有时会较长时间没有数据到达,而有 时会瞬间到达很多数据,这样对于流媒体的应用,用户体验会很差。

三, 结论

针对我们的需求,决定使用分离模型。因为分离模型的扩展性很好,并且通过优化预计可以达到较高的效率。 

posted @ 2010-03-09 00:14  史莱姆  阅读(603)  评论(1编辑  收藏  举报