摘要: Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法 阅读全文
posted @ 2018-01-16 19:06 巅峰之斗 阅读(231) 评论(0) 推荐(0) 编辑
摘要: from PIL import Image import pytesseract from pytesseract import * rep={'O':'0', #替换列表 'I':'1','L':'1', 'Z':'2', 'S':'8' }; def initTable(threshold=14 阅读全文
posted @ 2018-01-16 19:02 巅峰之斗 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 1.安装Pillow 2.安装tesseract-ocr github地址: https://github.com/tesseract-ocr/tesseract You can either Install Tesseract via pre-built binary package or bui 阅读全文
posted @ 2018-01-16 18:04 巅峰之斗 阅读(960) 评论(0) 推荐(0) 编辑
摘要: 最近想要抓取拉勾网的数据,最开始是使用Scrapy的,但是遇到了下面两个问题: 目前不会处理使用JS模板引擎生成的HTML页面,用POST的提交参数的话,接口统一,也没有必要使用Scrapy,所以就萌生了自己写一个简单的Python爬虫的想法。 本文中的部分链接可能需要FQ。 参考资料: 一个爬虫的 阅读全文
posted @ 2018-01-16 13:50 巅峰之斗 阅读(845) 评论(0) 推荐(0) 编辑