pytesseract

import pytesseract
import cv2


img = cv2.imread("captcha.jpg",0)
try:
    img.shape
except AttributeError:
    pass
else:
    code = pytesseract.image_to_string(img)
    print(code)

centos 安装tesseract

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update
yum install tesseract 
yum install tesseract-langpack-deu

  

接口就是pytesseract.image_to_string(),前提就是需要安装tesseract-OCR,并加入环境变量。

这里再记录一下识别中文的流程:

1. 下载二进制windows安装包

https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows

一键傻瓜式安装。安装完成后不要忘记把tesseract.exe所在路径加入环境变量。

 

2.安装简体中文包

https://github.com/tesseract-ocr/tessdata

下载chi_sim.traineddata并将其放入C:\Program Files (x86)\Tesseract-OCR\tessdata路径下。

 

最后,可以识别了,但是识别率惨的一批。。。。还需要我们训练自己的字体库。

posted @ 2018-06-29 10:00  家迪的家  阅读(220)  评论(0编辑  收藏  举报