摘要: 20个必不可少的Python库也是基本的第三方库 读者您好。今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们。他们是: Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。 Scrapy.如果你从事爬虫相关的工作 阅读全文
posted @ 2021-02-14 16:15 时光哥哥 阅读(390) 评论(0) 推荐(0) 编辑
摘要: Python异步编程 前言 现在是 Python3.5 以后已经进入异步时代 Python由于GIL(全局锁)的存在,不能发挥多核的优势,其性能一直饱受诟病。然而在IO密集型的网络编程里,异步处理比同步处理能提升成百上千倍的效率,弥补了Python性能方面的短板. python3.0时代,标准库里的 阅读全文
posted @ 2021-02-14 16:00 时光哥哥 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 1.递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。 实现方案: 1.将每一个页码对应的url存放到爬虫 阅读全文
posted @ 2021-02-14 15:42 时光哥哥 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 增量式爬虫 引言: 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更 阅读全文
posted @ 2021-02-14 15:40 时光哥哥 阅读(52) 评论(0) 推荐(0) 编辑