解决:actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file ..\..\ccutil\tessdatamanager.cp p, line 50
在玩tesseract时,发现如下报错:
这个是因为Tesseract-OCR的版本和chi_sim.traindata字库版本不匹配,由于我的Tesseract-OCR是3.02.02,去google下载字库要FQ,CSDN要积分,在百度快要无望的情况下,发现了该网站http://www.xue51.com/soft/1594.html#xzdz,才得以解决字库的问题
然后把字库中的chi_sim.traineddata拷贝到Tesseract-OCR\tessdata目录下
在文件的保存位置打开cmd,运行tesseract test.jpg test -l chi_sim命令,就可以在当前位置生成一个叫test的文件
命令格式: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]
imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata),如不标-l eng则默认为eng
后期有望通过训练来提高识别率
参考文章
https://www.cnblogs.com/congyinew/p/7694204.html