使用Python-Tesseract实现图片转文字.md
一行小字。这篇博客是我2019年6月份写的博客,突发奇想把它搬运到这里来嘤嘤~
前言
端午节第二天,早晨吃完竹筒饭后,10:00左右收到老师微信,为了弥补我吃的一顿霸王餐,需要把图片转成word发给老师。一共6张图片,打字的话大概40分钟。但我好歹是个OIer(虽然提高组没拿到奖 ),怎么可能打40分钟的字呢?要是有办法能自动转换,这样的事情以后一劳永逸啊。
经过长达6小时的百度和实践后,我成功实现了图片转文字。但是在这个过程中,有许多博客时间过于古老,错误频出。所以准备写一篇关于Tesseract实现图片转文字(OCR)的博客。
生产环境
系统 macOS Sierra 10.12.6
语言 Python3.6
软件 Homebrew
安装程序
升级生产环境
安装/升级软件至与生产环境中相同
安装Tesseract
打开Terminal
输入指令
brew install tesseract
下载完毕后,输入指令查看版本
tesseract --version
如果输出tesseract x.x.x 那么恭喜你,下载成功,如果报错。那么请再次下载,直至成功。
安装Pytesseract
输入指令
pip3 install pytesseract
下载完毕后,进入下一阶段。
安装中文语言包
打开https://github.com/tesseract-ocr/tessdata
下载其中的chi_sim.traineddata
将该文件复制到
/usr/local/Cellar/tesseract/4.0.0(版本号)/share/tessdata
如果根目录下没有显示usr文件
同时按下Command+shift+.
可显示隐藏文件。
复制完后,输入
tesseract --list-langs
显示的语言中若包含chi_sim
,说明安装成功。
简单使用方法
新建文件夹,编辑一个新的python文件。输入
import pytesseract
from PIL import Image
open image
file = open('输出文件.txt','w')
for i in range(1,7):
image = Image.open('需要识别的图片.jpg')
code = pytesseract.image_to_string(image, lang='chi_sim')
file.write(code)
file.write('\n')
file.close()
运行该程序,会识别文件夹下(需要识别的图片.jpg),并生成(输出文件.txt )
更多Python相关基础语法本篇博客不做介绍
更多关于pytesseract的使用方法请移步Pytesseract官网
更多关于tesseract的使用方法请移步Tesseract官方Wiki
训练模型
挖坑待填