mac 安装tesseract、pytesseract以及简单使用

一.tesseract-OCR的介绍

1.tesseract-OCR是一个开源的OCR引擎，能识别100多种语言，专门用于对图片文字进行识别，并获取文本。但是它的缺点是对手写的识别能力比较差。
2.用tesseract可以识别的图片中字体，主要有以下一些特点:

使用一个标准字体
可以使用复印或者拍照，但是必须字体要清晰，没有痕迹
图片里没有歪歪斜斜的字体
另外没有超出图片中的字体，也没有残缺的字体

二. mac tesseract-OCR的安装

1.安装有四种方式：

brew install --with-training-tools tesseract //安装tesseract，同时安装训练工具
brew install --all-languages tesseract //安装tesseract，同时它还会安装所有语言
brew install --all-languages --with-training-tools tesseract //安装附加组件
brew install tesseract //安装tesseract，但是不安装训练工具，我选择这种方式进行安装

2.安装完tesseract后，进行测试:

tesseract -v
tesseract的安装路径为：/usr/local/Cellar/tesseract/4.0.0/

3.tesseract命令基本用法

tesseract 9.jpg result //result是输出文件

4.下载语言库这里可以根据自己的需求来下载所需要的语言库，例如chi_sim.traineddata为简体中文：
下载地址：https://github.com/tesseract-ocr/tessdata
将chi_sim.traineddata下载后，需要将它放在/usr/local/Cellar/tesseract/4.0.0/share/tessdata目录下。

三. mac pytesseract的安装

1.

python有着更加方便的方式调用tesseract，首先需要安装pytesseract模块

2. 下载的命令

pip install pytesseract
pytesseract安装路径：/usr/local/lib/python3.7/site-packages/pytesseract

3.pytesseract模块要与PIL一起使用

4.实例1：

from PIL import Image
import pytesseract

if __name__ == '__main__':
    text = pytesseract.image_to_string(Image.open('9.jpg'), lang='chi_sim')
    print(text)

运行结果：
在这里插入图片描述

原文：https://blog.csdn.net/wodedipang_/article/details/84585914

posted @ 2020-10-29 11:01 cheflone 阅读(4157) 评论(0) 收藏举报

刷新页面返回顶部

cheflone

恆～