Python 爬虫神器 requests 工具

一、模块安装

pip install requests

在实际的爬虫中，其实真正用到的只有 GET、POST，像其他的方法基本用不到，比如：DELETE、HEAD、PUT 等。

headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.get(url, params=payload, headers=headers)

headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.post(url, data=payload, headers=headers)

禁用证书验证
verify = False
如果爬取的目标网站是 HTTPS 的，那么需要设置下这个参数。

代理设置
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'http://10.10.1.10:1080',
}
proxies = proxies
设置代理的目的是隐藏真实的IP地址，防止被禁IP地址。

auth = HTTPBasicAuth('admin', 'admin')
如果网站设置了 Auth 认证，需要配置这个参数传递账号密码。

搞爬虫都是注重效率的，俗话说："工欲善其，必先利其器"。那我们在这里利用一个工具将 CURL 请求直接生成 Python 代码。

复制网络请求的 CURL 命令。

将 CURL 命令转换成 Python 代码

最终生成的 Python 代码

1、requests 工具是编写爬虫程序中最常用的模块。
2、为了提高爬虫程序的编写效率直接使用 curlconverter 工具，将 curl 命令转换成 Python 代码。
3、本篇文章主要是作为笔记记录下，希望这些内容能够对你有帮助。

posted @ 2023-05-27 17:33 Yxh_blogs 阅读(117) 评论(0) 编辑收藏举报

刷新页面返回顶部