使用Request伪装User-Agent和IP地址
1.使用urllib爬取百度搜索html2.urllib.request.Request对象封装请求3.urllib发送get请求_中文传参问题4.urllib发送post请求获取html源代码5.获取动态页面html6.忽略SSL证书验证7.使用fake-useragent库伪装请求头8.urllib自定义opener对象设置代理IP9.爬虫cookie的使用10.保存与读取cookie11.使用urllib.error进行请求异常处理12.使用requests库发送get和post请求
13.使用Request伪装User-Agent和IP地址
14.requests设置超时时间/requests.Session自动保存cookie/verify忽略ssl证书15.re模块的正则表达式规则16.使用re的正则表达式提取腾讯体育新闻摘要17.BeautifulSoup4解析数据18.bs4.find_all()搜索文档树和css选择器提取解析后的html数据19.bs4解析并提取人民网新闻标题数据20.xpath解析数据21.谷歌浏览器的xpath插件安装22.使用re和lxml的xpath功能提取纵横中文网小说推荐榜前3页标题23.JSON数据24.使用jsonpath快速提取json的数据25.提取猫眼电影正在热映电影以及评分26.单线程与多线程爬虫使用urllib伪装User-Agent:https://www.cnblogs.com/qyly/p/18410791
,https://www.cnblogs.com/qyly/p/18415401
使用urllib伪装IP地址:https://www.cnblogs.com/qyly/p/18416308
接下来使用requests库替代urllib完成伪装工作,继续用httpbin测试工具查看响应结果:
运行代码:
import requests
from fake_useragent import UserAgent
def test_headers():
# 请求地址
url = 'http://httpbin.org/get'
# 封装伪装的请求头
headers = {'User-Agent': UserAgent().ff}
# 发送请求
resp = requests.get(url, headers=headers)
# 读取响应结果的文本内容
print(resp.text)
def test_proxy():
# 设置代理IP
# proxy = {'type': 'ip:port'}
proxy = {'http': '47.106.208.135:7777'}
# 请求地址
url = 'http://httpbin.org/get'
# 封装伪装的请求头
headers = {'User-Agent': UserAgent().ff}
# 发送请求
resp = requests.get(url, headers=headers, proxies=proxy)
# 读取响应结果的文本内容
print(resp.text)
if __name__ == '__main__':
test_headers() # 伪装User-Agent
test_proxy() # 伪装User-Agent和IP地址
运行结果:
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0",
"X-Amzn-Trace-Id": "Root=1-66ef6916-3dd3ddef0da48199207fc3a0"
},
"origin": "111.8.72.145",
"url": "http://httpbin.org/get"
}
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0",
"X-Amzn-Trace-Id": "Root=1-66ef692f-170105a707b577100f986e22"
},
"origin": "47.106.208.135",
"url": "http://httpbin.org/get"
}
合集:
python爬虫
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?