Python 爬虫神器 requests 工具

一、模块安装

pip install requests

二、常用方法

在实际的爬虫中,其实真正用到的只有 GET、POST,像其他的方法基本用不到,比如:DELETE、HEAD、PUT 等。

1、GET 方法

headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.get(url, params=payload, headers=headers)

2、POST 方法

headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.post(url, data=payload, headers=headers)

3、参数设置

禁用证书验证
verify = False
如果爬取的目标网站是 HTTPS 的,那么需要设置下这个参数。

代理设置
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'http://10.10.1.10:1080',
}
proxies = proxies
设置代理的目的是隐藏真实的IP地址,防止被禁IP地址。

HTTP Auth 认证

auth = HTTPBasicAuth('admin', 'admin')
如果网站设置了 Auth 认证,需要配置这个参数传递账号密码。

附:
requests地址 https://requests.readthedocs.io

三、案例

搞爬虫都是注重效率的,俗话说:"工欲善其,必先利其器"。那我们在这里利用一个工具将 CURL 请求直接生成 Python 代码。

复制网络请求的 CURL 命令。

将 CURL 命令转换成 Python 代码

最终生成的 Python 代码

附:
目标网址 https://spa1.scrape.center/
工具地址 https://curlconverter.com/python/

四、小结

1、requests 工具是编写爬虫程序中最常用的模块。
2、为了提高爬虫程序的编写效率直接使用 curlconverter 工具,将 curl 命令转换成 Python 代码。
3、本篇文章主要是作为笔记记录下,希望这些内容能够对你有帮助。

posted @ 2023-05-27 17:33  Yxh_blogs  阅读(117)  评论(0编辑  收藏  举报