Strava

mac 安装tesseract、pytesseract以及简单使用

一.tesseract-OCR的介绍

1.tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。
2.用tesseract可以识别的图片中字体,主要有以下一些特点:

  • 使用一个标准字体
  • 可以使用复印或者拍照,但是必须字体要清晰,没有痕迹
  • 图片里没有歪歪斜斜的字体
  • 另外没有超出图片中的字体,也没有残缺的字体

二. mac tesseract-OCR的安装

1.安装有四种方式:

  • brew install --with-training-tools tesseract //安装tesseract, 同时安装训练工具
  • brew install --all-languages tesseract //安装tesseract,同时它还会安装所有语言
  • brew install --all-languages --with-training-tools tesseract //安装附加组件
  • brew install tesseract //安装tesseract,但是不安装训练工具,我选择这种方式进行安装

2.安装完tesseract后,进行测试:

  • tesseract -v
    在这里插入图片描述
  • tesseract的安装路径为:/usr/local/Cellar/tesseract/4.0.0/

3.tesseract命令基本用法

  • tesseract 9.jpg result //result是输出文件
    在这里插入图片描述
    在这里插入图片描述

4.下载语言库这里可以根据自己的需求来下载所需要的语言库,例如chi_sim.traineddata为简体中文:
下载地址:https://github.com/tesseract-ocr/tessdata
将chi_sim.traineddata下载后,需要将它放在/usr/local/Cellar/tesseract/4.0.0/share/tessdata目录下。

三. mac pytesseract的安装

1.

python有着更加方便的方式调用tesseract,首先需要安装pytesseract模块

2. 下载的命令

  • pip install pytesseract
  • pytesseract安装路径:/usr/local/lib/python3.7/site-packages/pytesseract

3.pytesseract模块要与PIL一起使用

4.实例1:

from PIL import Image
import pytesseract

if __name__ == '__main__':
    text = pytesseract.image_to_string(Image.open('9.jpg'), lang='chi_sim')
    print(text)

 

运行结果:
在这里插入图片描述

 

原文:https://blog.csdn.net/wodedipang_/article/details/84585914

posted @ 2020-10-29 11:01  cheflone  阅读(3526)  评论(0编辑  收藏  举报