python爬虫curl
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# BY:wenchao.Li time: 2021/11/18
# curl工具:c写的一个命令
# -A 设置user-agent curl -A "Chrome" http://www.baidu.com
# -b 设置cookies,发起一个带cookies的http请求 curl -b a=test http://httpbin.org/cookies
# -X 用指定方法请求,比如访问 http://httpbin.org/post这个网址,他是github上可以拉取到并且部署到我们本机的,只能用特定方法请求他,
#直接curl http://httpbin.org/post 会报错,但是指定请求类型就可以 curl -X POST http://httpbin.org/post
# -I 只返回头信息,HEAD, curl -I https://www.baidu.com
# -d 以post方法请求,并发送相关参数,curl -d test=123 http://httpbin.org/post 多个参数:curl -d "a=1&b=2&c=3" http://httpbin.org/post
#或者 curl -d a=1 -d b=2 -d c=3http://httpbin.org/post,也可以以文件方式请求,把 a=1&b=2&c=3写进/tmp/aaa.data curl -d @/tmp/aaa.data http://httpbin.org/post 也可以
# -O 下载文件并以远程文件名保存 curl -O http://httpbin.org/image/jpeg
# -o 小写,另存为另一个名字 curl -o aaa.jpeg http://httpbin.org/image/jpeg
# -L 跟随重定向请求,curl -IL https://baidu.com
# -H 设置头信息,webp是一种图片格式,是google定义,在不降低清晰图的情况下缩小图片。curl -o image.webp -H "accept:image/webp" http://httpbin.org/image
# curl -o image.png -H "accept:image/png" http://httpbin.org/image 就是请求这个网址,接受png合适的图片,并保存image.png
# -k 跳过ssl验证,允许发起不安全的ssl请求比如curl -k https://www.12306.cn
# -s 不显示其他无关信息,只显示ip
#http请求返回 301是永久重定向,302是临时重定向 403是被禁止,没有权限 401是未授权,需要登录
# 返回访问的状态码
# curl -m 5 -s -o /dev/null -w %{http_code} https://www.baidu.com/