python爬虫:requests库的基本方法函数及运用框架
安装:
Win 平台:“以管理员身份运行” cmd,执行 pip install requests
小测:
>>>import requests
>>>r=requests.get("http://www.baidu.com")
>>>print(r.status_code)
200
>>>r.text
Requests库的7个主要方法:
requests.requests()为基础方法
request.requests(method, url, **kwargs)
method包含上述的get/put/post/options 等七种方法
url 为获取页面的链接
**kwargs 为控制访问的参数,共13个,可自主按需选择
params : 字典或字节序列,可以作为 参数 加入到url中
data : 对象,作为request的对应内容
json: JSON格式的数据,作为Request的内容
headers : 字典,http定制的头 字段
cookies : request中的cookie
files : 字典,向链接传输文件
auth : 元组,认证http功能
timeout : 设定超时时间,秒为单位
proxies : 字典类型,可以设定访问的代理服务器
allow_redirects :开关,允许不允许重定向
stream : 文件下不下载,默认下载
verify : 认证ssl
cert : 本地ssl路径
Response对象的属性:
理解Requests库的异常:
爬去网页的通用代码框架:
import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status() #如果状态不是200,引发HTMLError异常
r.encoding=r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__=="__main__":
url="http://www.baidu.com"
print(getHTMLText(url))
HTTP协议:
HTTP,Hypertext Transfer Protocol,超文本传输协议
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议 HTTP协议采用URL作为定位网络资源的标识,URL格式如下:
http : //host[:port][path]
host: 合法的Internet主机域名或IP地址 port: 端口号,缺省端口为80 path: 请求资源的路径
HTTP
HTTP,Hypertext Transfer Protocol,超文本传输协议
HTTP URL实例:
http://www.bit.edu.cn http://220.181.111.188/duty
HTTP URL的理解:
URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源
HTTP协议对资源的操作:
HTTP协议与Requests库:
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 现代计算机视觉入门之:什么是图片特征编码
· .NET 9 new features-C#13新的锁类型和语义
· Spring AI + Ollama 实现 deepseek-r1 的API服务和调用
· 《HelloGitHub》第 106 期
· 数据库服务器 SQL Server 版本升级公告
· 深入理解Mybatis分库分表执行原理
· 使用 Dify + LLM 构建精确任务处理应用