摘要:
Tesseract 4.0中包含了一个新的基于神经元网络的识别引擎,使得识别的精度比以前的版本大大提高了,相应的,对机器的计算能力要求也有了一个显著的提高。当然对于复杂的语言,它实际上比基本Tesseract要运行得更快
和基本的Tesseract相比,神经元网络要求大量的训练数据,训练速度也慢了很多。对于拉丁语系的语言,版本中提供的训练好的模型是在400000个文本行,4500种字体上训练得到的。对于 其他语言,可能没有这么多 的字体,但它们训练的文本行数是差不多的。Tesseract的训练将需要几天到2周的时间,而不是几分钟到几个小时。即使使用了这么多的训练数据,你可能还是发现,它并不适合你特定的问题,因此你还需要重新训练模型
阅读全文