2013 年 7月 20 日随笔档案 - 庄周梦蝶，黄粱一枕

2013年7月20日

摘要：最近有这样一个需求，需要抓在百度搜出来的各种网站，用urllib2获取的html页面各种乱码。于是我便有2种解决方法。1，自己写decode 和encode ，从response head里获取charset，然后用charset的编码 decode，然后encode成操作系统文件系统的编码（windows是gbk，linux是utf8），中间发现个库chardet[https://pypi.python.org/pypi/chardet]，貌似python3 已经里自带了，2里没有，可以很方便的检验字符的编码，对于一些获取charset为null可以用此判断。2，更简单的方法，将获取的htm 阅读全文

posted @ 2013-07-20 00:11 庄周梦蝶，黄粱一枕阅读(401) 评论(0) 推荐(0) 编辑

庄周梦蝶，黄粱一枕

一步一个脚印

公告