2018 年 4月 21 日随笔档案 - Netsharp

2018年4月21日

摘要： Tesseract 4.0中包含了一个新的基于神经元网络的识别引擎，使得识别的精度比以前的版本大大提高了，相应的，对机器的计算能力要求也有了一个显著的提高。当然对于复杂的语言，它实际上比基本Tesseract要运行得更快和基本的Tesseract相比，神经元网络要求大量的训练数据，训练速度也慢了很多。对于拉丁语系的语言，版本中提供的训练好的模型是在400000个文本行，4500种字体上训练得到的。对于其他语言，可能没有这么多的字体，但它们训练的文本行数是差不多的。Tesseract的训练将需要几天到2周的时间，而不是几分钟到几个小时。即使使用了这么多的训练数据，你可能还是发现，它并不适合你特定的问题，因此你还需要重新训练模型阅读全文

posted @ 2018-04-21 14:15 Netsharp 阅读(2018) 评论(0) 推荐(0) 编辑

我自横刀向天笑去留肝胆两昆仑

导航

公告

我自横刀向天笑 去留肝胆两昆仑

导航

公告

我自横刀向天笑去留肝胆两昆仑