随笔分类 -  Python3网络爬虫 / 06.异步爬虫

摘要:案例介绍 爬取一个数据量较大的软件,链接为https://spa5.scrape.center,页面如下图所示: 这是一个图书网站,整个网站包含数千本图书信息,网站数据是 JavaScript 渲染而得的,数据可以通过 Ajax 接口获取,并且接口没有设置反爬措施和加密参数。且网站数据量多,更适合异 阅读全文
posted @ 2024-05-29 01:57 JJJhr 阅读(47) 评论(0) 推荐(0) 编辑
摘要:在上一节中介绍了异步爬虫的基本原理和 asyncio 的基本用法,并且在最后简单提及了使用 aiohttp 来实现网页爬取的过程。本节介绍一下 aiohttp 的常见用法。 基本介绍 前面介绍的 asyncio 模块内部实现了对 TCP、UDP、SSL 协议的异步操作,但是对于 HTTP 请求来说, 阅读全文
posted @ 2024-05-29 01:56 JJJhr 阅读(140) 评论(0) 推荐(0) 编辑
摘要:爬虫是 IO 密集型任务,例如使用 requests 库来爬取某个站点,发出一个请求之后,程序必须要等待网站返回响应之后才能接着运行,而在等待响应的过程中,整个爬虫程序是一直在等待的,实际上没有做任何的事情。对于这种情况我们有没有优化方案呢? 协程的基本原理 要实现异步机制的爬虫,自然和协程脱不了关 阅读全文
posted @ 2024-05-29 01:56 JJJhr 阅读(16) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示