python 处理抓取网页乱码问题一招鲜

相信用python的人一定在抓取网页时，被编码问题弄晕过一阵

前几天写了一个测试网页的小脚本，并查找是否包含指定的信息。

在html = urllib2.open(url).read() 时，打印到控制台始终出现乱码。

一般的解决办法就是html.decode('utf-8').encode('gb2312')，不过这个即使用了，也没能解决我的问题

这里有两个问题，第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的，能不能主动获取网页的编码格式，并主动获取系统编码格式，像这样

网页编码 = 获取网页编码

系统编码 = 获取系统编码

html.decode(网页编码).encode(系统编码) 即使我不知道网页编码，系统编码，只要双方能转，就行。

网页编码 = re.complier('正则获取meta里的编码格式')

系统编码 = sys.getfilesystemencoding() ########关键的关键

html.decode(网页编码).encode(系统编码) 现在打印，一切正常了。我才不管系统什么编码，只要你能转。

posted @ 2013-12-30 09:22 wmx3ng 阅读(255) 评论(0) 收藏举报

刷新页面返回顶部

wmx3ng