tesseract-orc 合并识别结果
2016-05-15 00:46 狼人:-) 阅读(337) 评论(0) 编辑 收藏 举报在实际使用 tesseract-orc 识别库的时候,初次制作的识别库很有可能识别率不太理想,需要后期慢慢补充
本文演示如何将多个修正过的box文件合并成一个识别库。
首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典
假设已存在如下样品图片和修正过的box文件:
image.font.1.tif image.font.1.box
image.font.2.tif image.font.2.box
image.font.3.fit image.font.3.box
1、先生成相对应的 .tr 文件
tesseract image.font.1.tif image.font.1 nobatch box.train
tesseract image.font.2.tif image.font.2 nobatch box.train
tesseract image.font.3.tif image.font.3 nobatch box.train
2、提取字符
unicharset_extractor image.font.1.box image.font.2.box image.font.3.box
3、生成字体特征文件
新建 font_properties 文件(注意没有后缀名)把所有box文件对应的字体特征都加进去
font 0 0 0 0 0
4、执行如下命令
mftraining -F font -U unicharset image.font.1.tr image.font.2.tr image.font.3.tr
5、聚集所有.tr 文件
cntraining image.font.1.tr image.font.2.tr image.font.3.tr
6、重命名文件
将如下文件重命名,在前面增加字体的名称,这里我使用【CK】
unicharset
inttemp
normproto
pfftable
shapetable ---- 很多教程都漏了这个文件,不改这个文件创建识别库的时候会报错。
重命名后各文件名如下
CK.unicharset
CK.inttemp
CK.normproto
CK.pfftable
CK.shapetable ---- 很多教程都漏了这个文件,不改这个文件创建识别库的时候会报错。
7、合并所有文件 生成一个大的字库文件
combine_tessdata CK.
打完收工
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
2011-05-15 Android数据库程序开发必备工具SqliteDev