2016 年 5月 5 日随笔档案 - missAnnie

2016年5月5日

摘要： OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别，获取的过程。 Tesseract：开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后经由Google进行改进，消除bug，优化，重新发布。阅读全文

posted @ 2016-05-05 17:05 missAnnie 阅读(8627) 评论(0) 推荐(0) 编辑

OCR识别-python版（一）

摘要：需求：识别图片中的文字信息环境：windows系统开发语言：python 使用工具类：1.pyocr 2.PIL 3.tesseract-ocr 步骤： 1.pyocr 网络通直接使用命令：pip install pyocr 网络不通，转至https://pypi.python.org/pypi/ 阅读全文

posted @ 2016-05-05 16:44 missAnnie 阅读(64405) 评论(4) 推荐(2) 编辑

使用Google开源tesseract OCR用语言库报allow_blob_division解决方案

摘要：在使用语音库时候遇到报错：allow_blob_division，例如使用chi_sim.traineddata;在chi_sim.traineddata文件目录下,使用命令行执行：combine_tessdata -e chi_sim.traineddata chi_sim.config执行完后阅读全文

posted @ 2016-05-05 10:41 missAnnie 阅读(2591) 评论(2) 推荐(0) 编辑

missAnnie

公告