pdf转text工具之一: xpdf安装

下载地址:http://www.xpdfreader.com/download.html

我这边下载的是64位window系统,操作界面也是,工具语言选择的是中文简体。

使用命令行调用(操作界面安装非常简单,直接点击exe文件安装就行),只需要这两个文件。

将xpdf-chinese-simplified文件复制到xpdf-tools-win-4.02文件的bin64目录下;
将xpdf-tools-win-4.02文件的doc目录下的sample-xpdfrc文件复制到xpdf-tools-win-4.02文件的bin64目录下,并改名为xpdfrc;
将xpdf-tools-win-4.02文件下的部分文件复制到xpdf-tools-win-4.02文件的bin64目录下

将xpdf-tools-win-4.02文件的bin64目录下xpdfrc文件打开,修改并添加以下参数

cidToUnicode Adobe-GB1 ./xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN ./xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN ./xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK ./xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 ./xpdf-chinese-simplified/CMap
toUnicodeDir ./xpdf-chinese-simplified/CMap

textEncoding		UTF-8
textPageBreaks      no 

至此,安装完毕,接下来进行测试,进入xpdf-tools-win-4.02文件的bin64目录,并在搜索框输出cmd

进入控制器,输入pdftopng.exe -f 1 -l 1 E:\xpdf\test.pdf .\test\test
输入格式:.exe -f 页码 -l 页码 pdf文件地址 转储后图片储出地址

ps:可能出现部分pdf转图片异常,原因是字体缺失,即pdf中的文字字体在现有文件中不包含,需要自己去下载字体并配置到文件中,典型例子,将pdf的发票转成图片,会出现发票文字没有转义成功,最终图片最有发票背景的问题。

 

参考资料

  1. xpdf安装流程简介
  2. https://www.xpdfreader.com/download.html
  3. https://www.xpdfreader.com/pdftotext-man.html
posted @   猴子吃桃_Q  阅读(360)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示