扫描版PDF电子书目录制作方法

前置条件

书籍:扫描版《软件调试》(请支持正版😐仅用于实验)
工具:

适应场景

pdfdir 中有介绍,适应场景如下:

  1. 扫描版电子书籍无导航书签;
  2. 文字版电子文档无导航书签但 PDF 中有目录。

该软件通过正则对输入目录文本进行定位,但是大部分扫描版的文本目录不能准确复制,需要依靠 OCR 识别优先提取到目录,然后再输入 pdfdir 中制作目录。

步骤

我们首先打开待制作目录的书籍查看一下,该书籍的目录实际上是紊乱的,不能准确定位对应章节。

image-20240507160058639

通过对比不同软件的 OCR 识别技术,感觉 pdf-xchange-editor 的识别是比较准确的,我们搜索一下 OCR,并选择目录所在页数,记得语言添加简体中文和英文。

image-20240507160321316

简单起见这里示范只给出第一页的识别,可以看到识别的结果和第二页目录差距挺明显的,而且可以准确复制。

image-20240507160516578

接下来打开 pdfdir,将识别的目录复制进去,并设置好页差和目录分层,设置完成后写入。

image-20240507161049280

最终效果如下

image-20240507161227781

这里有个坑,我在制作目录的时候,第一篇是没有问题的,但是到了第二篇发现目录少了一页,即会跳转到原本的上一页,最后通过排查发现第一篇的结尾少了一页......通过 pdf-xchange-editor 的文档->插入页面->插入空白页面在缺失页处添加了一个空白页解决了该问题

image-20240507161737972

posted @ 2024-05-07 16:29  JICEY  阅读(85)  评论(0编辑  收藏  举报