chardet库的问题

网页内容编码格式的自动判断一直是困扰爬虫的一个重要问题!
python的chardet库,提供了一个解决方案。

import chardet
import requests

url = "https://www.baidu.com"
resp = requests.get(url)
# detect() 接受bytes类型. 返回一个字典, 里面有观察后的页面编码类型.
chardet.detect(resp.content)

返回的结果是
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
其中,指明了编码语言使用的是 utf-8。可信度达到了99%

但是

对于某些网站,例如中国新闻网

最后说明一点:网站编码的准确率 不可能100%

posted on 2022-04-14 11:36  耀扬  阅读(35)  评论(0编辑  收藏  举报

导航