好用的OCR文本识别工具

之所以会用到OCR工具，是因为在看一些扫描版的PDF文档时，有时候需要复制粘贴一些文字，特别是技术性文档，对于一些命令或者代码片段需要复制出来执行验证。
网络上有许多推荐OCR工具的文章，但是大多数都是厂商软文，而且都需要付费。本人在经过实际使用之后认为有2款开源免费的工具非常不错，推荐给大家。
特别说明： 既然是开源免费的工具，在识别准确率上应该是不如商业软件的，如果介意的就不用看了。

ShareX

ShareX是一个瑞士军刀般的小工具，之前主力使用的功能是屏幕截图。
其实它一直有一个OCR功能对于文本识别的正确率也非常高，对于不愿意折腾的人来说使用它进行OCR识别就足够了。
关于安装非常简单，不再赘述。
在最新版的ShareX 15.0版本中，使用其OCR功能截图下：

实际使用示例如下图：

对于我自己的需求而言，这样的识别准确率已经足够了。

textshot

textshot也是一个开源的OCR工具，工具本身是基于Python写的，所以需要机器上安装有Python3环境。
关于Python的下载和安装详见这里，不再赘述。

安装好Python3语言环境之后，使用pip3命令安装textshot。

pip3 install textshot

安装好textshot之后还不能直接使用（在Windows控制台执行textshot命令不会有任何效果），因为它依赖tesseract，所以还需要继续下载并安装Tesseract，这个安装过程有点漫长，需要耐心等待。
安装完毕tesseract之后，需要将其安装路径添加到环境变量PATH中。

上述准备工作都结束之后，打开一个新的Windows控制台，输入textshot命令，鼠标就会变成十字形，此时就可以开始截图并识别文本了，按Esc键可以退出。
实际使用示例如下图：

这种需要打开Windows控制台再输入命令启动textshot的方式非常不友好，所以可以借助AutoHotkey来设置快捷键。
使用AutoHotkey设置快捷键需要编写脚本，关于启动textshot的脚本在其代码库中有一个现成的示例：textshot.ahk，其内容如下：

#NoEnv
SetWorkingDir %A_ScriptDir%

; Bind the script to Win + Ctrl + S; modify as needed
#^s::
; Run Python w/o a window in a virtual environment in .venv
; Modify the command as needed, e.g. if not using a virtual environment
Run, .\.venv\Scripts\textshotw.exe
Return

我这边根据自己的实际环境情况做了一个修改，内容修改为：

#NoEnv
SetWorkingDir %A_ScriptDir%

; Bind the script to Win + Ctrl + S; modify as needed
#^s::
; Run Python w/o a window in a virtual environment in .venv
; Modify the command as needed, e.g. if not using a virtual environment
Run, textshot
Return

脚本内容含义解读：

#^s::，设置快捷键为Ctrl+Win+S
Run, textshot，执行textshot命令

然后将textshot.ahk的默认打开方式修改为AutoHotkeyU64.exe。

经过上述设置之后，只需要按快捷键Ctrl+Win+S就可以开始textshot截图了。
但是在我使用这种通过快捷键打开textshot的方式时，会弹出一个Windows控制台窗口，有时候这个窗口会遮盖我需要截图的区域，有一些不方便。
解决办法：在这个窗口弹出来，鼠标指针未变成十字形之前，把窗口拖到一边，这样就不再有任何影响了。

【参考】
https://zhuanlan.zhihu.com/p/35379309 Windows 自动化效率神器：AutoHotkey 使用教程和脚本推荐
http://www.cleartechfei.com/2021/03/ahk脚本-基本用法/ AHK脚本-基本用法

posted @ 2023-08-20 14:53 nuccch 阅读(110) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

编程随笔

感兴趣的技术：开发框架，中间件，分布式架构，DevOps

特别说明：本博客属于个人的开发随笔整理，其中的文字可能会随着理解的深入或者变化进行修改，有幸被转载时请标注原始链接^-^

好用的OCR文本识别工具

ShareX

textshot

公告

编程随笔

感兴趣的技术：开发框架，中间件，分布式架构，DevOps 特别说明：本博客属于个人的开发随笔整理，其中的文字可能会随着理解的深入或者变化进行修改，有幸被转载时请标注原始链接^-^

好用的OCR文本识别工具

ShareX

textshot

公告

感兴趣的技术：开发框架，中间件，分布式架构，DevOps

特别说明：本博客属于个人的开发随笔整理，其中的文字可能会随着理解的深入或者变化进行修改，有幸被转载时请标注原始链接^-^