PDF的文档结构分析

当我们需要对PDF的文档进行解析的时候,需要对文档结构进行查看并分析,那么这个时候可以使用apache的工具pdfbox-app-***.jar来运行,先看效果
例如我们要查看PDF中的某个字体的数据,那么打开之后可以看到

不仅包含了字体显示的效果,还能查看二进制代码进行分析,因为通过PDF导出的字体文件对于部分软件来说无法直接处理,需要进行单独处理。
下载地址,打开之后下载第一个 pdfbox-app-***.jar即可。
比如要打开某个pdf文件那么输入命令,因为下载的是jar包,那么需要使用java命令来执行
java -jar pdfbox-app.jar debug test.pdf即可打开需要分析的文件了。
文件还包含了3中视图,可以通过文件找资源,也可以通过交叉表索引查看,也可以通过页面查看。打开View->TreeView->即可

posted @ 2024-06-19 09:54  乌拉小考  阅读(24)  评论(0编辑  收藏  举报