2020 年 11月 4 日随笔档案 - 止一

2020年11月4日

摘要：本爬虫任务：爬虫糗事百科网站（https://www.qiushibaike.com/）——段子版块中所有的【段子】、【投票数】、【神回复】等内容步骤：通过翻页寻找url规律，构造url列表查看审查元素，发现网页内容均在elements中，可以直接请求通过xpath提取需要的内容保存数据阅读全文

posted @ 2020-11-04 09:47 止一阅读(143) 评论(0) 推荐(0) 编辑

Python爬虫_百度贴吧（title、url、image_url）

摘要：本爬虫以百度贴吧为例，爬取某个贴吧的【所有发言】以及对应发言详情中的【图片链接】涉及： request 发送请求获取响应 html 取消注释通过xpath提取数据数据保存思路：由于各贴吧发言的数量不一，因此通过观察url规律统一构造url列表进行遍历爬取，不具有可推广性，因此通过先找到【下阅读全文

posted @ 2020-11-04 03:16 止一阅读(765) 评论(0) 推荐(0) 编辑