01 2023 档案
摘要:需求:爬取斗图网数据 首先我们使用线程的方式,爬取前4页数据 准备工作 图片链接存在页面源代码中 但是,界面使用了懒加载技术,真正的url在data-original中 import requests from lxml import etree from concurrent.futures im
阅读全文
摘要:需求:爬取1996-2023年电影票房排行榜 首先,我们先爬取一年的数据,然后通过循环,逐一爬取每一年的数据。通过测试,话费时间32秒,代码如下: import requests from lxml import etree import time #处理数据,电影排行末尾 有的有空行,有的没有 d
阅读全文
摘要:定义:re模块称为正则表达式; 作用:创建一个"规则表达式",用于验证和查找符合规则的文本,广泛用于各种搜索引擎、账户密码的验证等; 预定义字符 \d 匹配所有的十进制数字 0-9 \D 匹配所有的非数字,包含下划线 \s 匹配所有空白字符(空格、TAB等) \S 匹配所有非空白字符,包含下划线 \
阅读全文