2013 年 12月 30 日随笔档案 - wmx3ng

2013年12月30日

摘要： FROM:http://my.oschina.net/012345678/blog/122355相信用python的人一定在抓取网页时，被编码问题弄晕过一阵前几天写了一个测试网页的小脚本，并查找是否包含指定的信息。在html = urllib2.open(url).read() 时，打印到控制台始终出现乱码。一般的解决办法就是html.decode('utf-8').encode('gb2312')，不过这个即使用了，也没能解决我的问题这里有两个问题，第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的，能不能主动获取网页的编码格式，并阅读全文

posted @ 2013-12-30 09:22 wmx3ng 阅读(225) 评论(0) 推荐(0) 编辑

wmx3ng

公告