BeautifulSoup的编码处理( zhuan)
BeautifulSoup的编码处理
BeautifulSoup内部使用的是Unicode,BeautifulSoup会自动检测输入文件的编码类型将其转换为Unicode。
BeautifulSoup编码检测顺序
BeautifulSoup按下面的顺序检测编码:
-
创建Soup对象时传递的 fromEncoding 参数;
-
XML/HTML文件自己定义的编码;
-
文件开始几个字节所表示的编码特征,此时能判断的编码只可能是以下编码之一:UTF-*,EBCDIC,和ASCII。
-
如果你安装了chardet,BeautifulSoup会用chardet检测文件编码。
-
UTF-8
-
Windows-1252
在BeautifulSoup的源文件中有这么一句代码:
DEFAULT_OUTPUT_ENCODING = "utf-8"
说明BeautifulSoup默认输出编码是utf-8编码,大家在使用的时候需要注意这个。
BeautifulSoup中编码处理函数
BeautifulSoup中的originalEncoding变量可以给出BeautifulSoup检测出的文件编码。
import urllib2 from BeautifulSoup import BeautifulSoup doc = urllib2.urlopen("http://www.pythonclub.org/") soup = BeautifulSoup(doc) soup.originalEncoding #u'utf-8'
BeautifulSoup处理中文编码
一个不会敲代码的程序员
分类:
python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· SQL Server 2025 AI相关能力初探
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库