python安装OCR识别库

（1）安装过程

参考的这个博客：https://blog.csdn.net/lanxianghua/article/details/100516187?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

（2）安装中文字库

识别中文需要安装字库，参考这个博客：https://www.cnblogs.com/jiyu-hlzy/p/12191463.html

（3）安装过程出现的错误

安装后执行程序时出现了以下错误：

这个错误是找不到tesseract.exe造成的，但是我又在pytesseract.py中添加了路径，最终发现是由于下面的原因造成的：

（4）测试

参考别的博客，写了几行简单的测试代码，代码如下：

 1 # encoding: utf-8
 2 
 3 import pytesseract
 4 from PIL import Image
 5 import os
 6 
 7 
 8 if __name__ == "__main__":
 9     print (os.getcwd())
10     im_ch = Image.open('test.png')
11 
12     print('========识别中文========')
13     print(pytesseract.image_to_string(im_ch, lang='chi_sim'))

测试的图片和结果如下：

可以看到，测试的图片不是分清晰，测试也出现了很多错别字。

（5）改进

接着又去找了一些博客来看，都在说可以使用百度AI来提高精度，参考这个博客实现了一下：https://www.cnblogs.com/adam012019/p/11440353.html

效果如下：

可以看到，效果已经非常不错了。

至此，这篇博客就写到这里为止了，其实我是突然想弄一个这个，因为在网上找的在线图片识别都是要收费的，我就想为何不自己写一个，就在网上找了几篇博客看。网友的力量真是强大，再次感谢以上博客的网友。

附录：

百度智能云，文字识别API简介：https://cloud.baidu.com/doc/OCR/s/Ek3h7xypm。

可以去开通一个，每天的免费额度还是够个人使用了。

posted @ 2020-04-02 00:32 Mrlayfolk 阅读(9719) 评论(0) 收藏举报

刷新页面返回顶部

MrLayflolk

有志者，事竟成。