Tesseract_OCR 合并字库

1.前期准备工作:

    1.需要生成的字符集    .tif文件,位置文件     .box文件

   现在有三个需要合并的字典

(1).(zwp1.test.exp0.tif,zwp1.test.exp0.box)

(2).(zwp82.test.exp0.tif,zwp83.test.exp0.box)

 (3).  (zwp83.test.exp0.tif,  zwp83.test.exp0.box)

 

box和tif文件

 

2.合并过程:

  1、先生成相对应的 .tr 文件(如果你之前训练的.tr 有的话,可以忽略这步)

   tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train

   tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train

   tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train

生成.tr文件

2、从所有文件中提取字符

   unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box

所有文件中提取字符

3、生成字体特征文件

   新建的font.txt文件,在文件中把所有box文件对应的字体特征都加进去(如果不知道,可以去原来考出来的字库文件找font_properties文件查看)

   test 0 0 0 0 0

   test 0 0 0 0 0

   test 0 0 0 0 0

然后执行如下命令:

   mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

生成字体特征文件

4 、聚集所有.tr 文件

   cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

聚集所有.tr 文件

5 、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 这几个文件加了前缀zwpnew. (目的是为了后面的聚集合并)

   rename normproto zwpnew.normproto

   rename inttemp zwpnew.inttemp

   rename pffmtable zwpnew.pffmtable

   rename shapetable zwpnew.shapetable

   rename unicharset zwpnew.unicharset

重命名文件

6、合并所有文件 生成一个大的字库文件

   combine_tessdata zwpnew.

合并文件

7、最后文件夹中就可以看到生成的.traineddata训练库

.traineddata训练库

 

posted @   锐洋智能  阅读(571)  评论(0编辑  收藏  举报
编辑推荐:
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
阅读排行:
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 分享4款.NET开源、免费、实用的商城系统
· 解决跨域问题的这6种方案,真香!
· 5. Nginx 负载均衡配置案例(附有详细截图说明++)
· Windows 提权-UAC 绕过
点击右上角即可分享
微信分享提示