摘要: 爬虫: 根本就是模拟发送http请求(浏览器需什么,我们携带什么),浏览器响应请求并返回数据,我们再对数据进行清洗即为摘选需要的数据,最后入库。 爬虫协议:robots.txt 举例: https://www.baidu.com/robots.txt https://www.cnblogs.com/ 阅读全文
posted @ 2022-05-07 20:36 谢俊杰 阅读(1171) 评论(0) 推荐(0) 编辑
摘要: 爬虫01: 基本介绍,基本使用 爬虫02: 图片,视频 requestsgao高级使用 bs4 selenium,验证码破解,自动登录 阅读全文
posted @ 2022-05-07 20:33 谢俊杰 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 获取二进制数据content或者iter_content 用于下载图片,视频。 爬取图片: import requests header = { "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/53 阅读全文
posted @ 2022-05-07 20:30 谢俊杰 阅读(487) 评论(0) 推荐(0) 编辑