阻塞&非阻塞
阻塞IO
调用之后一定要等到系统内核完成所有的操作之后才结束,因此它的缺点:CPU等待IO,处理能力得不到充分利用。
非阻塞IO
为了解决阻塞IO带来的一些问题,内核提供了非阻塞IO,非阻塞IO的差别是调用之后会立即返回。缺点:非阻塞IO立即返回并不是业务层期望的数据,而仅仅是调用的状态,为了获取完整的数据,应用程序需要重复调用IO操作确认,即轮询。
轮询
常见的三种轮询方式:select、poll和epoll。
1、select
int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);
参数解释
- nfds:被监听的文件描述符总数
- readfds writefds exceptfds : 可读、可写、异常事件的accept到对应的文件描述符集合
- fd_set:是一个整形数组,每一个元素的每一位来表示每一个文件描述符是否有相应的事件发生。(0没有1有)数组的长度由FD_SETSIZE决定
- timeout:轮询的时间片
通过设置或者检查存放fd(文件标识符)标志位的数据结构进行处理(select对应于内核的sys_select调用):1.将第2、3、4个参数指向的fd_set拷贝到内核;2.对每个被set对描述符调用进行poll,并记录在临时结果中(fdset)
缺点是:
- 单个进程的fd监视数量有限
- 需要维护一个存放fd的数据结构,这样会使得用户空间和内核空间在传递该结构时复制开销大
- 每次select操作需要初始化fdset,因为select的第2、3、4参数既是输入参数也是输出参数,在内核中会被修改
- socker的扫描是线性扫描
2、poll
int poll(struct pollfd *fds, nfds_t nfds, int timeout);
poll和select的实现机制类似,对应内核的sys_poll,但是传递的是pollfd数组,接着对pollfd数组进行poll。
优点:
- pollfd数组只需要被初始化一次,因为pollfd的events字段和revents分别用于标示关注的事件和发生的事件
- 对描述符个数没有限制,poll通过一个pollfd数组向内核传递需要关注的事件
3、epoll
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
相对于select和poll的遍历查询,epoll是真实利用了执行回调和事件通知的机制,充分利用CPU,因此效率比较高。
4、总结
总的来说,轮询技术满足非阻塞IO确保完整数据获取的需求,当时对于应用程序来说,它仍然是同步,因为它必须等待IO完全返回。等待IO期间,CPU要么遍历文件描述符的状态,要没用于休眠等待事件发生。
二、同步&异步
同步IO:同步IO比较简单,就是简单的顺序执行,其实阻塞和非阻塞都属于同步IO。
异步IO:这里拿Node举例,在Node中,我们知道异步是它的一大特色,那它到底有哪些好处呢?
- 1、从请求时间上来说,假设某个资源需要获取a,b两个地方的资源,a资源需要时间M毫秒,b资源需要时间N毫秒,此时:同步需要sum(M,N),异步需要max(M,N)
- 2 从资源消耗来说,异步远离阻塞,单线程避免了多线程容易出现的死锁等各种异常情况
我们期待的异步是:当我们应用程序发起阻塞请求,不需要轮询技术,直接处理下一个任务;当阻塞请求完成之后,将数据传递到应用程序。在Linux下存在这种异步IO即AIO。
如果我们自己去实现异步IO,则可以通过线程池+轮询技术来实现数据的获取。例如现在应用程序发起了一个阻塞请求,我们可以如下处理:
- 让a线程利用轮询技术去处理阻塞调用
- 让b线程去执行计算处理
- 当a线程的处理结果通过线程间共享发送给b
- 这样,就完成了异步IO。
三、总结
通过上面的介绍,我们需要知道的是:阻塞&非阻塞和异步&同步是不能混为一谈的,非阻塞本质上还是同步,它所谓的返回只是状态并不是数据。
由于阻塞&非阻塞和异步&同步的概念十分类似,这里就其做了一个简单介绍