随笔- 96 文章- 24 评论- 28 阅读- 183万

BeautifulSoup的编码处理( zhuan)

BeautifulSoup的编码处理

BeautifulSoup内部使用的是Unicode，BeautifulSoup会自动检测输入文件的编码类型将其转换为Unicode。

BeautifulSoup编码检测顺序

BeautifulSoup按下面的顺序检测编码：

创建Soup对象时传递的 fromEncoding 参数；
XML/HTML文件自己定义的编码；
文件开始几个字节所表示的编码特征，此时能判断的编码只可能是以下编码之一：UTF-*，EBCDIC，和ASCII。
如果你安装了chardet，BeautifulSoup会用chardet检测文件编码。
UTF-8
Windows-1252

在BeautifulSoup的源文件中有这么一句代码：

DEFAULT_OUTPUT_ENCODING = "utf-8"

说明BeautifulSoup默认输出编码是utf-8编码，大家在使用的时候需要注意这个。

BeautifulSoup中编码处理函数

BeautifulSoup中的originalEncoding变量可以给出BeautifulSoup检测出的文件编码。

import urllib2
from BeautifulSoup import BeautifulSoup
 
doc = urllib2.urlopen("http://www.pythonclub.org/")
soup = BeautifulSoup(doc)
soup.originalEncoding
#u'utf-8'

BeautifulSoup处理中文编码

posted @ 2012-05-07 11:03 wtx 阅读(3275) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· 展开说说关于C#中ORM框架的用法！
· SQL Server 2025 AI相关能力初探
· Pantheons：用 TypeScript 打造主流大模型对话的一站式集成库

公告

昵称： wtx
园龄： 13年8个月
粉丝： 97
关注： 10

+加关注

2012年5月

日

一

二

三

四

五

六

wtx

BeautifulSoup的编码处理( zhuan)

BeautifulSoup的编码处理

BeautifulSoup编码检测顺序

BeautifulSoup中编码处理函数

BeautifulSoup处理中文编码

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论