Windows环境安装tesseract-ocr 4.00并配置环境变量

第一步：

官方安装包下载地址：download

因为只包含英文语言包，如果需要其他语言包下载地址：download the appropriate training data

并将语言包解压至tessdata目录。

最常用的简体字识别包：https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata，也可以从上面的语言包下载地址获取各种你所需要的语言包

第二步：

直接执行下载好的tesseract-ocr-setup-4.00.00dev.exe（我的），下一步、下一步安装。其中

如果可以，也可以全部勾选，避免以后再单独下载字符库，其实我是全部下载，不过过程有点漫长，超级慢，我是隔夜安装好的。

第三步：配置环境变量

注意：我的系统是win7，其他系统应该差不多，跟配置java变量一样

复制你的安装地址，我的是安装在C:\Program Files (x86)\Tesseract-OCR，界面如下：

复制安装路径“C:\Program Files (x86)\Tesseract-OCR”，进入“控制面板\系统和安全\系统”，点击

“系统保护”（就是修改环境变量）

刚才的安装路径“C:\Program Files (x86)\Tesseract-OCR”添加到的PATH中

配置好了点击保存。

打开命令终端，输入：tesseract -v，可以看到版本信息

如果出现报错，估计是环境变量没配置好。

到这里，我们就算安装完成了，但是，我们的系统还是无法识别中文的，我们要去下载简体汉字、繁体汉字语言包（上文给了地址了），下载好之后放到安装目录的tessconfigs目录下即可。

补充：因为没有配置全局变量，无法跨盘执行数据转换，这里我们在环境变量那增加一个配置信息

系统变量—->新建：

增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径C:\Program Files (x86)\Tesseract-OCR;

命令行操作：

查看Tesseract-OCR支持语言

tesseract --list-langs

利用Tesseract-OCR识别

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

如输入：

tesseract 1.jpg 1.txt -l chi_sim+equ+eng

然后回车

1.jpg是当前目录中的1.jpg图片

1.txt是指定结果输出到文本文件

-l是指定使用的包

chi_sim是中文识别包，equ是数学公式包，eng是英文包

posted @ 2018-02-23 17:01 m*x*h 阅读(305) 评论(0) 编辑收藏举报

刷新页面返回顶部

淋雨的孩子