摘要: Tesseract Tesseract是一个OCR库,目前由谷歌赞助。Tesseract是目前公认最优秀、最准确的开源OCR库。Tesseract具有很高的识别度,也具有很高的灵活性,他可以通过训练识别任何字体。 安装: Windows系统: 在以下链接下载可执行文件,然后一顿点击下一步安装即可(放 阅读全文
posted @ 2020-08-02 19:23 topass123 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 继承自threading.Thread类 为了让线程代码更好的封装。可以使用threading模块下的Thread类,继承自这个类,然后实现run方法,线程就会自动运行run方法中的代码。示例代码如下: import threading import time class CodingThread( 阅读全文
posted @ 2020-08-02 19:13 topass123 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 分布式爬虫系统广泛应用于大型爬虫项目中,力求以最高的效率完成任务,这也是分布式爬虫系统的意义所在。 分布式爬虫系统的三种形式: 利用redis做分布式系统,最经典的就是scrapy-Redis,这是比较成熟的框架。同时我们也可以利用Redis的队列功能或者订阅发布功能来打造自己的分布式系统。 Rab 阅读全文
posted @ 2020-08-02 14:38 topass123 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 安装: pip install pipenv 阅读全文
posted @ 2020-08-02 09:32 topass123 阅读(98) 评论(0) 推荐(0) 编辑