OCR技术浅析-tesserOCR（3）

Pagesegmode 值有：

0 =定向和脚本检测（OSD）只。

1 =利用OSD进行自动页面分割。

2 =自动页面分割，但没有OSD或OCR

3 =全自动页面分割，但没有OSD。（默认）

4 =假设一列可变大小的文本。

5＝假定垂直对齐文本的单一均匀块。

6 =假设一个统一的文本块。

7 =将图像视为单个文本行。

8 =将图像视为单个单词。

9＝将图像作为循环中的单个单词处理。

10 =将图像视为单个字符。

语言包和模式必须在配置文件之前。

4.php使用tesseract

git上已有开源的php类库实现了tesserOCR的方法 https://github.com/thiagoalessio/tesseract-ocr-for-php

Comporser 安装 Comporser requir thiagoalessio/tesseract_ocr

其实只需要执行 exec 就可以。

<?php

new TesseractOCR('multi-languages.png')

->lang('eng', 'jpn', 'por') //使用语言包

->whitelist(range('A', 'Z')) //固定范围

 ->run();

刚安装好的tesserOCR犹如初生的婴儿，识别能力并不强，可以下载官方提供的语言包（非系统语言包）或自己训练

posted @ 2018-08-17 16:33 寻觅~~ 阅读(1402) 评论(0) 编辑收藏举报

刷新页面返回顶部

寻觅~草根技术

结构知识整理中......

OCR技术浅析-tesserOCR（3）

tesserOCR使用

公告