解决:actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file ..\..\ccutil\tessdatamanager.cp p, line 50

在玩tesseract时,发现如下报错:

这个是因为Tesseract-OCR的版本和chi_sim.traindata字库版本不匹配,由于我的Tesseract-OCR是3.02.02,去google下载字库要FQ,CSDN要积分,在百度快要无望的情况下,发现了该网站http://www.xue51.com/soft/1594.html#xzdz,才得以解决字库的问题

然后把字库中的chi_sim.traineddata拷贝到Tesseract-OCR\tessdata目录下

在文件的保存位置打开cmd,运行tesseract test.jpg test -l chi_sim命令,就可以在当前位置生成一个叫test的文件

命令格式: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…] 

imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata),如不标-l eng则默认为eng

后期有望通过训练来提高识别率

 

 

 

参考文章

https://www.cnblogs.com/congyinew/p/7694204.html

 

posted @ 2018-07-23 23:35  cnhkzyy  阅读(2513)  评论(0编辑  收藏  举报