requests获取源代码时中文乱码问题
用request访问网站的时候,经常会碰到中文乱码的问题,常用的中文编码格式有"utf-8"和"gb2312"
处理步骤:
1.首先检查一下网页的编码格式,打开浏览器按F12,检查源码,点击元素(Elements),搜索 "charset " 可以看出来网页的编码格式:
例如下面的网页:
因此可知这个页面的编码格式是gb2312的.
2.用requests获取网页源码,加入编码方式
url = "http://www.baidu.com"
方法1:
html = requests.get(url).content.decode('gb2312')
方法2:
html = requests.get(url)
html.encoding='gb2312'
注意:我们可以用print(html.encoding) 的方式,打印出来网页的编码,但是有的时候打印出来的有可能是乱的,最好的方式还是查看网页的charset属性