Tesseract-OCR 自动生成识别库的批处理

用Tesseract-OCR做识别库的时候，生成字典非常麻烦，就写了一个批处理，用来生成字典还是蛮方便的，希望大家有用，该批处理已经自动生成font_properties文件，各位无需手动创建

下载地址：http://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.01-1.exe

下面简单说下怎么训练

1、批量下载、并保存需要识别的图片（验证码）；

2、预处理图片（降噪、剪裁、灰度）；

3、使用 jTessBoxEditor 生成 tif 文件（注：jTessBoxEditor是java软件，需要安装java jdk）

4、复制我这个批处理文件到生成的tif目录下执行

5、输入tif的完整文件名

6、输入字典项目名称

7、是否生成box文件，没有生成的，选择y，已经生成并修正过的就选择n

8、生成完毕

下面是批处理的内容，复制下面内容，保存一个.bat文件

echo off
cls
set /p img=请输入图片名：
set /p pro=请输入项目名：

set /p level=是否生成box？
if %level% NEQ n goto step2
if %level% NEQ N goto step2

echo 1、生成%img%的box文件，项目名【%pro%】
pause
tesseract.exe %img% %pro% batch.nochop digits makebox
cls
echo 生成box文件完成，请使用jTessBoxEditor校正识别信息。
pause

:step2
tesseract.exe %img% %pro% nobatch box.train
unicharset_extractor.exe %pro%.box

echo 生成font_properties文件
set val=%pro% 1 0 0 1 0 
echo %val%>font_properties

cntraining.exe %pro%.tr

mftraining.exe -F font_properties -U unicharset %pro%.tr

echo 重命名文件
rename inttemp %pro%.inttemp
rename unicharset %pro%.unicharset
rename normproto %pro%.normproto
rename pffmtable %pro%.pffmtable
rename shapetable %pro%.shapetable

echo 生成字典文件...
combine_tessdata %pro%.

echo 字典生成完毕，已生成字典：%pro%.traineddata

注：3.0.2 增加了一个 shapetable 文件，在重命名时这个文件也需要重名命

posted @ 2013-07-06 00:36 tdhao 阅读(1731) 评论(0) 收藏举报

刷新页面返回顶部

Tesseract-OCR 自动生成识别库的批处理

公告