2021 年 2月 14 日随笔档案 - 时光哥哥

2021年2月14日

摘要： 20个必不可少的Python库也是基本的第三方库读者您好。今天我将介绍20个属于我常用工具的Python库，我相信你看完之后也会觉得离不开它们。他们是： Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。 Scrapy.如果你从事爬虫相关的工作阅读全文

posted @ 2021-02-14 16:15 时光哥哥阅读(390) 评论(0) 推荐(0) 编辑

异步编程-协程

摘要： Python异步编程前言现在是 Python3.5 以后已经进入异步时代 Python由于GIL（全局锁）的存在，不能发挥多核的优势，其性能一直饱受诟病。然而在IO密集型的网络编程里，异步处理比同步处理能提升成百上千倍的效率，弥补了Python性能方面的短板. python3.0时代，标准库里的阅读全文

posted @ 2021-02-14 16:00 时光哥哥阅读(51) 评论(0) 推荐(0) 编辑

scrapy框架之递归解析和post请求

摘要： 1.递归爬取解析多页页面数据 - 需求：将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析：每一个页面对应一个url，则scrapy工程需要对每一个页码对应的url依次发起请求，然后通过对应的解析方法进行作者和段子内容的解析。实现方案： 1.将每一个页码对应的url存放到爬虫阅读全文

posted @ 2021-02-14 15:42 时光哥哥阅读(22) 评论(0) 推荐(0) 编辑

增量式爬虫

摘要：增量式爬虫引言：当我们在浏览相关网页的时候会发现，某些网站定时会在原有网页数据的基础上更新一批数据，例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么，类似的情景，当我们在爬虫的过程中遇到时，我们是不是需要定时更新程序以便能爬取到网站中最近更阅读全文

posted @ 2021-02-14 15:40 时光哥哥阅读(52) 评论(0) 推荐(0) 编辑

时光哥哥

公告