摘要: 参考链接:http://www.cnblogs.com/suwings/p/6360395.html 做个爬虫真的是一波三折,今天爬取网站得到的返回内容是js的escape编码,完全乱码,用urllib.unquote()不行,decode再encode也不行。 上网查了下发现了这样做可以: 如图输 阅读全文
posted @ 2017-10-17 20:37 lplucky 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 最近爬取一个网站的数据,有图片验证码,图片验证用的是百度ocr,但是百度ocr不支持gif图片的文字识别,所以需要将git图片转化为其他格式。 在这里我将gif图片转化为png格式。利用的是Python 的PIL(python image libiary)。 1、首先得安装python的PIL,我在 阅读全文
posted @ 2017-10-17 15:16 lplucky 阅读(1233) 评论(0) 推荐(0) 编辑