urllib.request.urlopen 怎样处理了服务器返回的 gzip 乱码数据
urlopen 函数不会自动处理服务器返回的 gzip 数据,出现类似 \x1f\x8b\x08\x00 的乱码。
Request header 中的 Accept-Encoding 属性如果为 gzip,服务器返回的是 gzip 压缩后的数据,如下所示:
import urllib.request req = urllib.request.Request(url) req.add_header('Accept', '*/*') req.add_header('Accept-Encoding', 'gzip') req.add_header('Accept-Language', 'zh-CN,zh;q=0.8,en;q=0.6') req.add_header('Cache-Control', 'max-age=0') req.add_header('Connection', 'keep-alive') req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36') f = urllib.request.urlopen(req) content = f.read()
返回结果:
\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xdd=k\x8f$Wu\xdf-\xf9?Tfcyw5\xd5\xd3\xef\xee\x19\x0b\x048v\x90\x12\x92...
解压 gzip
使用 gzip 模块解压字符串,如下所示:
import urllib.request import gzip req = urllib.request.Request(url) req.add_header('Accept', '*/*') req.add_header('Accept-Encoding', 'gzip') req.add_header('Accept-Language', 'zh-CN,zh;q=0.8,en;q=0.6') req.add_header('Cache-Control', 'max-age=0') req.add_header('Connection', 'keep-alive') req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36') f = urllib.request.urlopen(req) # 处理 gzip 压缩的字符串 encoding = f.info().get('Content-Encoding') if encoding == 'gzip': content = gzip.decompress(f.read()) else: content = f.read()
content 如果为bytes类型,将其转换为字符串:
if isinstance(html, bytes): html = str(html, encoding='utf-8')
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧