Python 爬虫神器 requests 工具
一、模块安装
pip install requests
二、常用方法
在实际的爬虫中,其实真正用到的只有 GET、POST,像其他的方法基本用不到,比如:DELETE、HEAD、PUT 等。
1、GET 方法
headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.get(url, params=payload, headers=headers)
2、POST 方法
headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.post(url, data=payload, headers=headers)
3、参数设置
禁用证书验证
verify = False
如果爬取的目标网站是 HTTPS 的,那么需要设置下这个参数。
代理设置
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'http://10.10.1.10:1080',
}
proxies = proxies
设置代理的目的是隐藏真实的IP地址,防止被禁IP地址。
HTTP Auth 认证
auth = HTTPBasicAuth('admin', 'admin')
如果网站设置了 Auth 认证,需要配置这个参数传递账号密码。
附:
requests地址 https://requests.readthedocs.io
三、案例
搞爬虫都是注重效率的,俗话说:"工欲善其,必先利其器"。那我们在这里利用一个工具将 CURL 请求直接生成 Python 代码。
复制网络请求的 CURL 命令。
将 CURL 命令转换成 Python 代码
最终生成的 Python 代码
附:
目标网址 https://spa1.scrape.center/
工具地址 https://curlconverter.com/python/
四、小结
1、requests 工具是编写爬虫程序中最常用的模块。
2、为了提高爬虫程序的编写效率直接使用 curlconverter 工具,将 curl 命令转换成 Python 代码。
3、本篇文章主要是作为笔记记录下,希望这些内容能够对你有帮助。