摘要: OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。 Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。 阅读全文
posted @ 2016-05-05 17:05 missAnnie 阅读(8627) 评论(0) 推荐(0) 编辑
摘要: 需求:识别图片中的文字信息环境:windows系统 开发语言:python 使用工具类:1.pyocr 2.PIL 3.tesseract-ocr 步骤: 1.pyocr 网络通直接使用命令:pip install pyocr 网络不通,转至https://pypi.python.org/pypi/ 阅读全文
posted @ 2016-05-05 16:44 missAnnie 阅读(64405) 评论(4) 推荐(2) 编辑
摘要: 在使用语音库时候 遇到报错:allow_blob_division,例如使用chi_sim.traineddata;在chi_sim.traineddata文件目录下,使用命令行执行:combine_tessdata -e chi_sim.traineddata chi_sim.config执行完后 阅读全文
posted @ 2016-05-05 10:41 missAnnie 阅读(2591) 评论(2) 推荐(0) 编辑