chardet库的问题

网页内容编码格式的自动判断一直是困扰爬虫的一个重要问题！
python的chardet库，提供了一个解决方案。

import chardet
import requests

url = "https://www.baidu.com"
resp = requests.get(url)
# detect() 接受bytes类型. 返回一个字典, 里面有观察后的页面编码类型.
chardet.detect(resp.content)

返回的结果是
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
其中，指明了编码语言使用的是 utf-8。可信度达到了99%

但是

对于某些网站，例如中国新闻网

最后说明一点：网站编码的准确率不可能100%

posted on 2022-04-14 11:36 耀扬阅读(40) 评论(0) 编辑收藏举报

刷新页面返回顶部

耀扬

chardet库的问题

但是

最后说明一点：网站编码的准确率不可能100%

导航

公告

耀扬

chardet库的问题

但是

最后说明一点：网站编码的准确率 不可能100%

导航

公告

最后说明一点：网站编码的准确率不可能100%