Python爬虫——光学字符识别

用homebrew 在电脑上安装tesseract库 

brew install tesseract

用pip安装支持python的tesseract 接口

pip install pytesseract

  

使用pytesseract库图片文件(jpg、png、bmp等)进行识别,把图片转换成字符串输出。

import pytesseract
from PIL import Image

img = Image.open('1.gif')
print(pytesseract.image_to_string(img))

 实际测试效果:

输入图片,输出,结果:成功

输入图片,输出:为空,结果:失败

输入图片,输出:为空,结果:失败

输入图片,输出:,结果:错误

 

如果需要支持中文,请下载下面的文件到目录 /usr/local/Cellar/tesseract/5.1.0/share/tessdata

https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata

然后

print(pytesseract.image_to_string(img, lang='chi_sim'))

  

posted @ 2017-01-12 23:42  tonglin0325  阅读(652)  评论(0编辑  收藏  举报