摘要:
参考链接:http://www.cnblogs.com/suwings/p/6360395.html 做个爬虫真的是一波三折,今天爬取网站得到的返回内容是js的escape编码,完全乱码,用urllib.unquote()不行,decode再encode也不行。 上网查了下发现了这样做可以: 如图输 阅读全文
摘要:
最近爬取一个网站的数据,有图片验证码,图片验证用的是百度ocr,但是百度ocr不支持gif图片的文字识别,所以需要将git图片转化为其他格式。 在这里我将gif图片转化为png格式。利用的是Python 的PIL(python image libiary)。 1、首先得安装python的PIL,我在 阅读全文