ocrmypdf ocr你的PDF

官网

常见问题:

目录:

安装

Manjaro

  • 安装构建工具
sudo pacman -S base-devel
  • 使用AUR助手工具安装OCRmyPDF
# 安装yay
sudo pacman -S yay
# 使用yay自动构建ocrmypdf
yay -S ocrmypdf

MAC

  • 安装ocrmypdf
brew install ocrmypdf
# -----------------Manjaro-----------------
# 英文包(默认)
sudo pacman -S tesseract-data-eng

# 中文简体
sudo pacman -S tesseract-data-chi_sim

# -----------------Mac---------------------
# 中文简体到语言包github下载后放到
usr/local/Cellar/tesseract/ <版本> /share/tessdata
  • 安装有损转换图片工具(可选)
# -----------------Manjaro-----------------

# 用于压缩更小的PDF
sudo pacman -S img2pdf

# -----------------MAC---------------------
brew install img2pdf

用法

单一文件

# 文件目录中
ocrmypdf --force-ocr -d -l chi_sim ceshi1.pdf ceshi3.pdf
# 部份参数
# -d           修正倾斜
# -l chi_sim   指定语言
# --force-ocr  强制OCR解决某些错误

批量

# -----------------Manjaro-----------------
# 安装parallel多线程转换
sudo pacman -S parallel

# -----------------MAC---------------------
brew install parallel

# 同目录中
parallel --bar --tag -j 2 ocrmypdf --force-ocr -l chi_sim '{}' 'output/{}' ::: *.pdf
# 参数
# -j 2             最大前行数
# output           同目录里的输出文件夹名
# --bar            显示进度 通常比较慢才变化
# --tag            见官方说明
# --force-ocr      强制OCR解决某些错误
# -l chi_sim       中文语言包 
# 默认加添英文语言

参考

posted @   知之噵  阅读(296)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~
点击右上角即可分享
微信分享提示