PDF复制乱码问题解决方案

问题描述

PDF格式文件一般分为文字版和图片版:文字版文件较小,方便搜索,可以方便地转换成其他格式;而图片版文件较大,可防止他们直接复制。而今天要说的文字版本却无法搜索,这给文件使用带来了极大的不便。主要表现为:

(1)文件较小,文字可选择;

(2)文字可复制,复制的结果为乱码,如下图的"基础"二字,粘贴的结果是"!"";

(3)无法复制,很急人;

(4)编辑时,格式中的字体是显示"乱码";

在菜单栏[文档]-[属性]-[字体]中,可以看到有较多已嵌入了自定义编码字体,这是发布者处理的,以防止复制和搜索,一般是一种不可逆的操作。

解决方案

网络上大多的解决方案是使用ABBYY OCR来识别,重新编排一份文档,但这样的效率还是很慢,特别是当文件分辨率并不高的情况下。通过测试发了一种方案。具体操作如下:

先用Adobe Acrobat打开文件,使用印刷制作工具

打开印前检查进行PDF修正,通过分析和处理,将字体转为空心。

修正后,使用扫描和OCR工具"增强",进行识别处理后,保存即可。这样的操作方法简单,速度较快,结果正确,无需进行核查。

 

posted @ 2020-07-24 15:15  我也是个傻瓜  阅读(16779)  评论(5编辑  收藏  举报