2013年9月6日
摘要: 对于图片的识别我们首先要进行图片的处理(包括滤波,去噪等),处理过的图片可以显著增加识别的正确率。第一步首先下载tesseract-ocr3.02 。第二步是下载JTessBoxEditor,因为这个组件是java开发的所以我们要装java的运行环境(其中注意如果是压缩的图片,JTessBoxEditor不能合并)。第三步开始词库的训练1.合并图片(图片必须为tif格式的,图片转换器ImageMagick,可以在网上下载)用JTessBoxEditor合并多张tif图片合并为chm.test.exp0.tif。图片命名规则如[lang].[fontname].exp[num].tif,其中[] 阅读全文
posted @ 2013-09-06 16:23 今夜有风 阅读(2297) 评论(0) 推荐(0) 编辑