01 2023 档案

摘要:需求:爬取斗图网数据 首先我们使用线程的方式,爬取前4页数据 准备工作 图片链接存在页面源代码中 但是,界面使用了懒加载技术,真正的url在data-original中 import requests from lxml import etree from concurrent.futures im 阅读全文
posted @ 2023-01-19 22:57 Tony_xiao 阅读(113) 评论(0) 推荐(0) 编辑
摘要:需求:爬取1996-2023年电影票房排行榜 首先,我们先爬取一年的数据,然后通过循环,逐一爬取每一年的数据。通过测试,话费时间32秒,代码如下: import requests from lxml import etree import time #处理数据,电影排行末尾 有的有空行,有的没有 d 阅读全文
posted @ 2023-01-18 23:18 Tony_xiao 阅读(156) 评论(0) 推荐(0) 编辑
摘要:定义:re模块称为正则表达式; 作用:创建一个"规则表达式",用于验证和查找符合规则的文本,广泛用于各种搜索引擎、账户密码的验证等; 预定义字符 \d 匹配所有的十进制数字 0-9 \D 匹配所有的非数字,包含下划线 \s 匹配所有空白字符(空格、TAB等) \S 匹配所有非空白字符,包含下划线 \ 阅读全文
posted @ 2023-01-14 23:09 Tony_xiao 阅读(49) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示