摘要: Tesseract(识别引擎),一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不 阅读全文
posted @ 2018-10-30 17:38 向往前方 阅读(15472) 评论(0) 推荐(0) 编辑
摘要: 首先python是不能直接读写doc格式的文件的,这是python先天的缺陷。但是可以利用python-docx (0.8.6)库可以读取.docx文件或.txt文件,且一路畅通无阻。 这样的话,可以先将doc格式转化为docx格式,但是不能直接修改文件名的后缀(这样文件会被损坏,即使没被损坏可能也 阅读全文
posted @ 2018-10-30 13:49 向往前方 阅读(3461) 评论(0) 推荐(0) 编辑