扫描版PDF电子书目录制作方法
前置条件
书籍:扫描版《软件调试》(请支持正版😐仅用于实验)
工具:
- pdfdir
- pdf-xchange-editor
适应场景
pdfdir 中有介绍,适应场景如下:
- 扫描版电子书籍无导航书签;
- 文字版电子文档无导航书签但 PDF 中有目录。
该软件通过正则对输入目录文本进行定位,但是大部分扫描版的文本目录不能准确复制,需要依靠 OCR 识别优先提取到目录,然后再输入 pdfdir 中制作目录。
步骤
我们首先打开待制作目录的书籍查看一下,该书籍的目录实际上是紊乱的,不能准确定位对应章节。
通过对比不同软件的 OCR 识别技术,感觉 pdf-xchange-editor 的识别是比较准确的,我们搜索一下 OCR,并选择目录所在页数,记得语言添加简体中文和英文。
简单起见这里示范只给出第一页的识别,可以看到识别的结果和第二页目录差距挺明显的,而且可以准确复制。
接下来打开 pdfdir,将识别的目录复制进去,并设置好页差和目录分层,设置完成后写入。
最终效果如下
坑
这里有个坑,我在制作目录的时候,第一篇是没有问题的,但是到了第二篇发现目录少了一页,即会跳转到原本的上一页,最后通过排查发现第一篇的结尾少了一页......通过 pdf-xchange-editor 的文档->插入页面->插入空白页面在缺失页处添加了一个空白页解决了该问题