使用Python-Tesseract实现图片转文字.md

一行小字。这篇博客是我2019年6月份写的博客,突发奇想把它搬运到这里来嘤嘤~

前言

端午节第二天,早晨吃完竹筒饭后,10:00左右收到老师微信,为了弥补我吃的一顿霸王餐,需要把图片转成word发给老师。一共6张图片,打字的话大概40分钟。但我好歹是个OIer(虽然提高组没拿到奖 ),怎么可能打40分钟的字呢?要是有办法能自动转换,这样的事情以后一劳永逸啊。

经过长达6小时的百度和实践后,我成功实现了图片转文字。但是在这个过程中,有许多博客时间过于古老,错误频出。所以准备写一篇关于Tesseract实现图片转文字(OCR)的博客。

生产环境

系统 macOS Sierra 10.12.6

语言 Python3.6

软件 Homebrew

安装程序

升级生产环境

安装/升级软件至与生产环境中相同

安装Tesseract

打开Terminal

输入指令

brew install tesseract

下载完毕后,输入指令查看版本

tesseract --version

如果输出tesseract x.x.x 那么恭喜你,下载成功,如果报错。那么请再次下载,直至成功。

安装Pytesseract

输入指令

pip3 install pytesseract

下载完毕后,进入下一阶段。

安装中文语言包

打开https://github.com/tesseract-ocr/tessdata

下载其中的chi_sim.traineddata

将该文件复制到

/usr/local/Cellar/tesseract/4.0.0(版本号)/share/tessdata

如果根目录下没有显示usr文件

同时按下Command+shift+.可显示隐藏文件。

复制完后,输入

tesseract --list-langs

显示的语言中若包含chi_sim,说明安装成功。

简单使用方法

新建文件夹,编辑一个新的python文件。输入

import pytesseract
from PIL import Image

open image

file = open('输出文件.txt','w')
for i in range(1,7):
	image = Image.open('需要识别的图片.jpg')
	code = pytesseract.image_to_string(image, lang='chi_sim')
	file.write(code)
	file.write('\n')
file.close()

运行该程序,会识别文件夹下(需要识别的图片.jpg),并生成(输出文件.txt )

更多Python相关基础语法本篇博客不做介绍

更多关于pytesseract的使用方法请移步Pytesseract官网

更多关于tesseract的使用方法请移步Tesseract官方Wiki

训练模型

挖坑待填

posted @ 2021-03-07 04:59  连海生  阅读(321)  评论(0编辑  收藏  举报