代码改变世界

tesseract ocr文字识别Android实例程序和训练工具全部源代码

2014-02-13 19:06  slmk  阅读(2193)  评论(0编辑  收藏  举报

tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用。可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率。

为了节省大家的学习时间,现将自己近期的学习总结成一个简单的实例程序,作为Android系统中使用tesseract的Demo演示并附有详细的说明文档。并将自己用C#开发的识别库训练工具提供给大家,其中包括全部的源代码。这样,大家就可以方便的训练特定字体和字形的识别库了。

经过训练后的纸牌识别,识别率达到了100%

注意“王”我在训练时,故意识别为“!”。对于纸牌识别这种小范围识别生成的识别库体积小,因此识别速度很快。

训练工具的使用

训练工具使用非常简单,只需两步即可得到我们的识别库MyLang.traineddata

详细使用参见附带的“使用说明”,有详细的教程。

获取全部打包源代码