摘要: 本爬虫任务: 爬虫糗事百科网站(https://www.qiushibaike.com/)——段子版块中所有的【段子】、【投票数】、【神回复】等内容 步骤: 通过翻页寻找url规律,构造url列表 查看审查元素,发现网页内容均在elements中,可以直接请求 通过xpath提取需要的内容 保存数据 阅读全文
posted @ 2020-11-04 09:47 止一 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 本爬虫以百度贴吧为例,爬取某个贴吧的【所有发言】以及对应发言详情中的【图片链接】 涉及: request 发送请求获取响应 html 取消注释 通过xpath提取数据 数据保存 思路: 由于各贴吧发言的数量不一,因此通过观察url规律统一构造url列表进行遍历爬取,不具有可推广性,因此通过先找到【下 阅读全文
posted @ 2020-11-04 03:16 止一 阅读(649) 评论(0) 推荐(0) 编辑