High一下! --from coolshell
摘要: 最近有这样一个需求,需要抓在百度搜出来的各种网站,用urllib2获取的html页面各种乱码。于是我便有2种解决方法。1,自己写decode 和encode ,从response head里获取charset,然后用charset的编码 decode,然后encode成操作系统文件系统的编码(windows是gbk,linux是utf8),中间发现个库chardet[https://pypi.python.org/pypi/chardet],貌似python3 已经里自带了,2里没有,可以很方便的检验字符的编码,对于一些获取charset为null可以用此判断。2,更简单的方法,将获取的htm 阅读全文
posted @ 2013-07-20 00:11 庄周梦蝶,黄粱一枕 阅读(401) 评论(0) 推荐(0) 编辑