使用Python-Tesseract实现图片转文字.md

一行小字。这篇博客是我2019年6月份写的博客，突发奇想把它搬运到这里来嘤嘤～

前言

端午节第二天，早晨吃完竹筒饭后，10:00左右收到老师微信，为了弥补我吃的一顿霸王餐，需要把图片转成word发给老师。一共6张图片，打字的话大概40分钟。但我好歹是个OIer（虽然提高组没拿到奖），怎么可能打40分钟的字呢？要是有办法能自动转换，这样的事情以后一劳永逸啊。

经过长达6小时的百度和实践后，我成功实现了图片转文字。但是在这个过程中，有许多博客时间过于古老，错误频出。所以准备写一篇关于Tesseract实现图片转文字（OCR）的博客。

生产环境

系统 macOS Sierra 10.12.6

语言 Python3.6

软件 Homebrew

安装程序

升级生产环境

安装／升级软件至与生产环境中相同

安装Tesseract

打开Terminal

输入指令

brew install tesseract

下载完毕后，输入指令查看版本

tesseract --version

如果输出tesseract x.x.x 那么恭喜你，下载成功，如果报错。那么请再次下载，直至成功。

安装Pytesseract

输入指令

pip3 install pytesseract

下载完毕后，进入下一阶段。

安装中文语言包

打开https://github.com/tesseract-ocr/tessdata

下载其中的chi_sim.traineddata

将该文件复制到

/usr/local/Cellar/tesseract/4.0.0（版本号）/share/tessdata

如果根目录下没有显示usr文件

同时按下Command+shift+.可显示隐藏文件。

复制完后，输入

tesseract --list-langs

显示的语言中若包含chi_sim，说明安装成功。

简单使用方法

新建文件夹，编辑一个新的python文件。输入

import pytesseract
from PIL import Image

open image

file = open('输出文件.txt','w')
for i in range(1,7):
	image = Image.open('需要识别的图片.jpg')
	code = pytesseract.image_to_string(image, lang='chi_sim')
	file.write(code)
	file.write('\n')
file.close()

运行该程序，会识别文件夹下（需要识别的图片.jpg），并生成（输出文件.txt ）

更多Python相关基础语法本篇博客不做介绍

更多关于pytesseract的使用方法请移步Pytesseract官网

更多关于tesseract的使用方法请移步Tesseract官方Wiki

训练模型

挖坑待填

posted @ 2021-03-07 04:59 连海生阅读(362) 评论(0) 收藏举报

刷新页面返回顶部

连海生