随笔分类 - tesseract
resseractOCR识别
摘要:1. 准备资料: (1) https://github.com/tesseract-ocr/tesseract 项目,到linux中安装 ==这一步可以理解linux为安装tesseract5环境,这里直接用安装tesseract的镜像启动之后测试。 关于镜像安装tesseract参考https:/
阅读全文
摘要:由于需要离线安装tesseract,于是想到用docker镜像的方式部署tesseract。采用docker commit 基于容器构建镜像。 总体思路是先拉一个基础的centos镜像,然后启动之后进入容器安装好tesseract之后commit为镜像。然后镜像save为tar包。这样就可以实现离线
阅读全文
摘要:文中测试了3.0和4.0两个版本。发现3.0识别效率不准确,需要训练词库。4.0识别效率就比较高了,而且支持结果生成pdf、txt等格式。所以推荐使用4.0版本。 这个工具可以用在爬虫的时候获取验证码进行识别且自动输入验证码的功能。 git地址:https://github.com/tesserac
阅读全文