urllib2下载时判断网页编码

原文网址:http://stackoverflow.com/questions/1495627/how-to-download-any-webpage-with-correct-charset-in-python

fp = urllib2.urlopen(request)
charset = fp.headers.getparam('charset')

对于中文网页,charset可能的值有:UTF-8, GB2312

不过urllib2有点问题,UTF-8能正确判断,但有些GB2312的网页,不能正确判断,而是返回None,例如 http://news.sina.com.cn 这点需要注意

--------------------------------------------------------------------------------

另外一个方法是用 chardet,http://chardet.feedparser.org/

但chardet性能有问题。

posted on 2011-07-06 20:28  夏日微风  阅读(464)  评论(0编辑  收藏  举报

导航