[Python之路] 使用epoll实现高并发HTTP服务器

什么是epoll

我们在 Python多种方式实现并发的Web Server 的最后使用单进程+单线程+非阻塞+长连接实现了一个可并发处理客户端连接的服务器。他的原理可以用以下的图来描述：

解释：

1.HTTP服务器是我们使用单进程+单线程+非阻塞+长连接实现的web服务器。

2.在实现的时候，我们创建了一个存放已接受Socket连接的列表，该列表是在应用程序的内存空间中的。如图中深蓝色部分

3.当有3个客户端接入的时候，列表中一共存在3个对应的socket句柄，分别对应三个小黄框。

4.灰色小框代表服务器接收请求的socket。

5.我们在进行无限循环的时候，首先是检查是否有新的客户端接入，相当于检查灰色小框是否有数据到达。然后轮询3个小黄框对应socket是否有数据到达。轮询的效率是很低的。

6.服务器在使用accept和recv时，实际上是委托操作系统帮他检查是否有数据到达，由于这个列表的socket都处于用户内存空间，所以需要将其复制到内核空间。操作系统检查完毕后，如果有数据就返回数据给应用程序，如果没有数据就以异常的方式通知应用程序。而且不光这样，操作系统可能还同时在运行其他的应用程序，这样效率会非常低。

我们再来看epoll的图：

解释：

1.我们可以看到，在结构上，最大的区别在于，存放socket的列表不处于应用程序内部。在epoll中，这个存放socket的列表处于一个特殊的内存空间，这个内存空间是应用程序与内核共享的空间。也就是说，当应用程序委托操作系统检查是否有数据到达时，无需将复制数据给内核空间，操作系统可以直接进行检查。

2.操作系统检查到某个socket有数据到达，使用事件通知的形式，直接告诉应用程序，而不是以轮询的方式。打个比方，一个厨师挨个问50个人饿了没，如果饿了就给他东西吃，这是轮询。而50个人中，谁饿了谁举手，厨师就给吃的，这叫事件通知。很明显，事件通知的效率会特别高。

实现代码：

import socket

import re
import select


def handle_request(new_socket, recv_msg):
    # 从请求中解析出URI
    recv_lines = recv_msg.splitlines()

    # 使用正则表达式提取出URI
    ret = re.match(r"[^/]+(/[^ ]*)", recv_lines[0])

    if ret:
        # 获取URI字符串
        file_name = ret.group(1)
        # 如果URI是/，则默认返回index.html的内容
        if file_name == "/":
            file_name = "/index.html"

    try:
        # 根据请求的URI，读取相应的文件
        fp = open("." + file_name, "rb")
    except:
        # 找不到文件，响应404
        response_msg = "HTTP/1.1 404 NOT FOUND\r\n"
        response_msg += "\r\n"
        response_msg += "<h1>----file not found----</h1>"
        new_socket.send(response_msg.encode("utf-8"))
    else:
        html_content = fp.read()
        fp.close()

        response_body = html_content

        # 响应正确 200 OK
        response_header = "HTTP/1.1 200 OK\r\n"
        response_header += "Content-Length:%d\r\n" % len(response_body)
        response_header += "\r\n"

        response = response_header.encode("utf-8") + response_body

        # 返回响应数据
        new_socket.send(response)


def main():
    # 创建TCP SOCKET实例
    tcp_server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    # # 设置重用地址
    # tcp_server_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
    # 绑定地址（默认本机IP）和端口
    tcp_server_socket.bind(("", 7890))
    # 监听
    tcp_server_socket.listen(128)

    # 将accept设置为非阻塞,这里设置一次，后面不管调多少次accept都是非阻塞的
    tcp_server_socket.setblocking(False)

    # 创建一个epoll对象
    epl = select.epoll()
    # 将监听套接字对应的fd注册到epoll中,并让其监听有没有数据进来，所以使用EPOLLIN
    epl.register(tcp_server_socket.fileno(), select.EPOLLIN)

    # 定义一个字典，用于存放fd和套接字的对应关系，因为操作系统在事件通知的时候，使用的是fd，而不是套接字，我们需要使用fd来找到对应
    # 的套接字，从而可以调用accept和recv
    fd_event_dict = dict()

    # 循环接收客户端连接
    while True:
        # 使用一个列表来接受操作系统的事件通知，poll()是阻塞的，当有数据到达时，poll才会解开阻塞
        fd_event_list = epl.poll()
        # 操作系统的事件通知返回一个列表（可能同时有多个套接字有数据进入），这个列表中的元素都是元组(fd,event)
        for fd, event in fd_event_list:
            # 首先判断事件通知中的fd是否对应监听套接字（监听套接字调用accept）
            if fd == tcp_server_socket.fileno():
                new_socket, client_addr = tcp_server_socket.accept()
                # 监听到一个新的客户端连接，将new_socket也注册到epoll中
                epl.register(new_socket.fileno(), select.EPOLLIN)
                # 并且将这个socket加入fd_event_dict字段，方便以后通过fd来获取套接字
                fd_event_dict[new_socket.fileno()] = new_socket
            elif event == select.EPOLLIN:  # 如果不是监听套接字，那么都是客户端对应的套接字
                # 接收数据
                recv_data = fd_event_dict[fd].recv(1024).decode("utf-8")
                # 如果有数据
                if recv_data:
                    # 处理数据
                    handle_request(fd_event_dict[fd], recv_data)
                else:  # 如果没有数据，则表示客户端断开连接
                    # 关闭fd对应的socket
                    fd_event_dict[fd].close()
                    # 从epoll中踢出已经断开的fd
                    epl.unregister(fd)
                    # 从字典中删除fd对应的记录
                    del fd_event_dict[fd]

    # 关闭整个SOCKET
    tcp_server_socket.close()


if __name__ == "__main__":
    main()

解释：

1.首先创建epoll对象

2.将监听套接字对应fd注册到epoll，并设置监听数据的IN。

3.调用poll()函数，如果没有数据到达，则处于阻塞状态，如果有数据到达，则操作系统会返回一个事件通知列表。

4.遍历列表，如果发现fd是监听套接字对应fd，则使用监听套接字调用accept，并将接收到的新的客户端连接对应socket也注册到epoll中，并将其存放到字典fd_event_dict中（方便后续使用fd获取socket）。

5.如果不是监听套接字，则直接从fd_event_dict中通过fd获取对应的socket，然后调用recv来接收数据。

6.如果接收到的数据有内容，则调用请求处理逻辑。

7.如果接收到的数据为空，则表示客户端主动调用了close，想要断开连接。此时从fd_event_dict中通过fd获取对应socket，然后调用socker.close()来关闭连接。

8.关闭连接后，将该socket从epoll中剔除，并且从fd_event_dict中删除。

注意：该代码无法在windows上运行，因为epoll是Linux2.6内核增加的新功能，windows并不支持。

posted @ 2019-11-29 22:40 风间悠香阅读(2668) 评论(0) 编辑收藏举报

风间悠香

风间悠香的笔记本

[Python之路] 使用epoll实现高并发HTTP服务器