Open-source - Tesseract

通过安装包直接安装 Tesseract

  1. 下载 Tesseract (可以选择最新的64位版本)

  2. 安装 Tesseract(可以全部点击下一步)

  3. 添加系统环境变量
    1)将安装目录添加到 Path (参考值 C:\Program Files\Tesseract-OCR)
    2)新建名为 TESSDATA_PREFIX 的系统变量,它的值指向 tessdata 文件夹(参考值 C:\Program Files\Tesseract-OCR\tessdata)

  4. 下载训练数据,解压并复制到 tessdata 文件夹(chi-sim 为简体中文)

更多请参考这里

通过命令行使用 Tesseract

tesseract [image] [output] -l [lang]

image:图像文件路径

output:输出文件路径,默认输出的文件格式为文本格式

lang:训练数据文件路径

注:cmd 需要使用管理员模式打开,不然无法正常加载训练数据

更多请参考这里

编译 Tesseract

  1. 下载并安装 GitCMakeCPPAN,然后将他们添加到系统变量

  2. 使用 Git 运行下面命令

    git clone https://github.com/tesseract-ocr/tesseract tesseract
    
    cd tesseract
    cppan
    
    # 32位
    mkdir win32 && cd win32
    cmake ..
    
    # 64位
    mkdir win64 && cd win64
    cmake .. -G "Visual Studio 14 2015 Win64"
    
  3. 使用 vs 2015 打开生成的解决方案,编译。如果出现编译错误,尝试更改错误文件的编码格式。

更多请参考这里

posted @ 2019-10-21 17:41  郑大峰  阅读(163)  评论(0编辑  收藏  举报