爬取网页--get()函数

get()函数:使用get()函数时可以发送不携带url参数和携带url参数的GET请求。

语法:getaa(url,params=None,headers=None,cookies=None,verify=True,proxies=Noen,timeout=None,**kwargs)

url:必选参数,表示请求的URL。

params:可选参数,表示请求的查询字符串。

headers:可选参数,表示请求的请求头,该参数只支持字典类型的值。

cookies:可选参数,表示请求的Cookie信息,该参数支持字典或CookieJar类对象。

verify:可选参数,表示是否启用SSL证书,默认值为True。

proxies:可选参数,用于设置代理服务器,该参数只支持字典类型的值。

timeout:可选参数,表示请求网页时设定的超时时长,以秒为单位。

不带参数时,get()函数只需要给url参数传入指定的URL即可。

1
2
3
4
import requests
base_url = 'https://www.baidu.com/'
response = requests.get(url = base_url)
print(response.status_code)

  输出结果是:200

带参数时有两种方法

方法一:在调用get()函数之前就赋值给一个变量,然后get()函数只需要给url参数传入指定的URL即可。

1
2
3
4
5
6
7
import requests
base_url ='https://www.baidu.com/'
ie_param = "ie = utf-8"
wd_param = "wd = python"
full_url = base_url+"?"+ie_param+"&"+wd_param
response = requests.get(full_url)
print(response.status_code)

  输出:200

方法二:在调用get()函数时将其它参数也直接传入get()函数中

1
2
3
4
5
import requests
base_url ='https://www.baidu.com/'
ie_param = "ie = utf-8"
response = requests.get(url = base_url,params=ie_param)
print(response.status_code)

  输出:200

posted @   小菜阿跃  阅读(128)  评论(0编辑  收藏  举报
编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· Vue3状态管理终极指南:Pinia保姆级教程
点击右上角即可分享
微信分享提示