chardet库的问题
网页内容编码格式的自动判断一直是困扰爬虫的一个重要问题!
python的chardet库,提供了一个解决方案。
import chardet
import requests
url = "https://www.baidu.com"
resp = requests.get(url)
# detect() 接受bytes类型. 返回一个字典, 里面有观察后的页面编码类型.
chardet.detect(resp.content)
返回的结果是
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
其中,指明了编码语言使用的是 utf-8。可信度达到了99%
但是
对于某些网站,例如中国新闻网