tesseract 4.1.1文字识别训练过程及工具(Vs,C#) - bdshr

1.工具

　　　　https://digi.bib.uni-mannheim.de/tesseract/

　　　　https://github.com/serak/serak-tesseract-trainer

　　　　https://github.com/scotts48/tesseract-box-editor.git

　　　　https://github.com/Darkseal/MergeTIFF.git

　　　　下载代码编译训练工具,box编辑工具和tiff合并工具.

　　　　第一次生成box时,使用create new box 按钮,使用系统默认的语言识别图片并生成Box文件,

　　　　当我们自己已经有训练好的对应语言的训练数据时,可以用bootstrapping a new character 按钮,用自己的识别数据识别图片来生成Box,

　　这里主要是修改自动生成的文字边框和识别错误的字符

　　serak-tesseract-trainer 训练工具,主要就是对tesseract的命令行的界面话,直接使用命令行训练其实也是可以的,网上这种介绍很多,比如下面这篇

　　https://www.cnblogs.com/mtcnn/p/9411786.html

　　好多资料用的box编辑器都是jTessBoxEditor ,这个需要下载java环境,我懒得下载安装,所以才找的tesseract-box-editor这个工具.

posted on 2021-08-23 10:28 bdshr 阅读(1892) 评论(2) 收藏举报

刷新页面返回顶部