求知若饥，虚心若愚

python chardet简单应用

python的字符串编码识别模块（第三方库）：

官方地址： http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要，选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果：
# {'confidence': 0.99, 'encoding': 'GB2312'}

运行结果表示有99%的概率认为这段代码是GB2312编码方式。

import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
 # 分块进行测试，直到达到阈值
 detector.feed(line)
 if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果：
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景，如果要对一个大文件进行编码识别，使用这种高级的方法，可以只读一部，去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据，在每次检测完，一定要运行一下detector.reset()。清除之前的数据。

posted @ 2015-06-14 16:24 初行阅读(1391) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· Linux系列：如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识（上）

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· 展开说说关于C#中ORM框架的用法！
· SQL Server 2025 AI相关能力初探
· Pantheons：用 TypeScript 打造主流大模型对话的一站式集成库

公告

昵称：初行
园龄： 12年11个月
粉丝： 134
关注： 13

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案 (116)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:SQL的几种连接：内连接、左联接、右连接、全连接、交叉连接
全链接呢??
--thouger
2. Re:C#绘制数字图像灰度直方图
不错刚刚好需要显示直方图数据
--无赖痞子
3. Re:Linux下DB2数据库安装教程
我只看到dec版本的，没有看到expc的
--黎明之海
4. Re:SQL的几种连接：内连接、左联接、右连接、全连接、交叉连接
解释得很清楚
--www2333
5. Re:SQL的几种连接：内连接、左联接、右连接、全连接、交叉连接
自然连接表述的对吗有的博主说自然连接可以理解为根据相同的列名且相同的字段值和字段类型进行自动连接，不需要设置where条件。如果列名不匹配，结果为笛卡尔积。没有提到是否会删除重复列...
--倾目
6. Re:C#数字图像处理的3种方法
图片居然是河大新区。巧！
--微光-倾城
7. Re:ASP.NET伪静态详解及配置
顶一下
--☞mai梦人☜
8. Re:“SSLError: The read operation timed out” when using pip
。。。。。。。。。。。
--www点elesos点com
9. Re:SQL的几种连接：内连接、左联接、右连接、全连接、交叉连接
楼主，全连接的 select * from book as a full outer join stu as b on a.sutid = b.stuid我这里竟然报错了。跟着你的例子走的...
--公子七
10. Re:设置gem源，解决下载慢的问题
不用这么麻烦，挂梯子，提速几十倍，我用的是天路加速器，效果挺好，
--kkk12356