摘要: ### 异步io io就是input,output,输入和输出, 读写硬盘,读写数据库的时候,就是输入输出,下载网页存入数据库的时候,就是io操作 以写数据为例,如果是阻塞型写入操作,进程要一直等待写结束返回才会进行后面的操作,但是如果你使用异步I/O,你可以将写请求发送到队列,然后就可以去做其他事 阅读全文
posted @ 2021-05-07 00:51 技术改变命运Andy 阅读(85) 评论(0) 推荐(0) 编辑
摘要: #### 网址池的实现 对于比较大型的爬虫来说,URL管理的管理是个核心问题,管理不好,就可能重复下载,也可能遗漏下载。这里,我们设计一个URL Pool来管理URL。这个URL Pool就是一个生产者-消费者模式: 和scrapy的设计是一样的, 1,爬虫从网址池那url去下载解析, 2,爬虫解析 阅读全文
posted @ 2021-05-07 00:01 技术改变命运Andy 阅读(373) 评论(0) 推荐(0) 编辑