ocrmypdf ocr你的PDF
常见问题:
目录:
安装
Manjaro
- 安装构建工具
sudo pacman -S base-devel
- 使用AUR助手工具安装OCRmyPDF
# 安装yay
sudo pacman -S yay
# 使用yay自动构建ocrmypdf
yay -S ocrmypdf
MAC
- 安装ocrmypdf
brew install ocrmypdf
- 安装语言包
# -----------------Manjaro-----------------
# 英文包(默认)
sudo pacman -S tesseract-data-eng
# 中文简体
sudo pacman -S tesseract-data-chi_sim
# -----------------Mac---------------------
# 中文简体到语言包github下载后放到
usr/local/Cellar/tesseract/ <版本> /share/tessdata
- 安装有损转换图片工具(可选)
# -----------------Manjaro-----------------
# 用于压缩更小的PDF
sudo pacman -S img2pdf
# -----------------MAC---------------------
brew install img2pdf
用法
单一文件
# 文件目录中
ocrmypdf --force-ocr -d -l chi_sim ceshi1.pdf ceshi3.pdf
# 部份参数
# -d 修正倾斜
# -l chi_sim 指定语言
# --force-ocr 强制OCR解决某些错误
批量
# -----------------Manjaro-----------------
# 安装parallel多线程转换
sudo pacman -S parallel
# -----------------MAC---------------------
brew install parallel
# 同目录中
parallel --bar --tag -j 2 ocrmypdf --force-ocr -l chi_sim '{}' 'output/{}' ::: *.pdf
# 参数
# -j 2 最大前行数
# output 同目录里的输出文件夹名
# --bar 显示进度 通常比较慢才变化
# --tag 见官方说明
# --force-ocr 强制OCR解决某些错误
# -l chi_sim 中文语言包
# 默认加添英文语言
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~