Ubuntu PDF OCR 工具—OCRmyPDF
简介
开源 OCR 工具,识别扫描版 PDF 使其可以搜索、复制等
OCR, Optical Character Recognition,光学字符识别,是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程
github: https://github.com/jbarlow83/OCRmyPDF
docs: https://ocrmypdf.readthedocs.io/en/latest/
安装
安装 ocymypdf 及依赖
sudo apt-get -y remove ocrmypdf # 本机未安装 ocrmypdf 旧版
sudo apt-get -y update
sudo apt-get -y install \
ghostscript \
icc-profiles-free \
liblept5 \
libxml2 \
pngquant \
python3-cffi \
python3-distutils \
python3-pkg-resources \
python3-reportlab \
qpdf \
tesseract-ocr \
zlib1g \
unpaper
wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py
export PATH=$HOME/.local/bin:$PATH
python3 -m pip install --user ocrmypdf
安装 JBIG2 encoder
git clone https://github.com/agl/jbig2enc
cd jbig2enc
./autogen.sh
./configure && make
[sudo] make install
遇到的问题
执行 ./autogen.sh
-
./autogen.sh: 行 45: aclocal:未找到命令
sudo apt-get install automake
-
./autogen.sh: 行 50: libtoolize:未找到命令 ./autogen.sh: 行 50: glibtoolize:未找到命令
sudo apt install libtool
执行./configure && make
-
Error! Leptonica not detected.
sudo apt install libleptonica-dev
https://github.com/tesseract-ocr/tesseract/issues/215#issuecomment-369339789
-
Error! zlib not detected.
sudo apt install zlib1g-dev
安装语言包
sudo apt install tesseract-ocr-chi-sim
命令
ocrmypdf -l chi_sim --output-type pdf [source.pdf] [ocr.pdf]
-
ocrmypdf
工具命令
-
-l
chi_sim指定语言为中文简体
-
--output-type
pdf生成标准的 PDF 格式
-
source.pdf
需要进行处理的文档名
-
ocr.pdf
处理完生成的文档名
示例
ocrmypdf -l chi_sim --output-type pdf 正则表达式必知必会\(修订版\).pdf 正则表达式必知必会\(修订版\)-ocr.pdf --force-ocr
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· C++代码改造为UTF-8编码问题的总结
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 2分钟学会 DeepSeek API,竟然比官方更好用!
· .NET 使用 DeepSeek R1 开发智能 AI 客户端
· 10亿数据,如何做迁移?
· 推荐几款开源且免费的 .NET MAUI 组件库
· c# 半导体/led行业 晶圆片WaferMap实现 map图实现入门篇