2012年5月16日

PDF文件结构(二)

摘要: PDF文件结构(二) ————逻辑结构 作者:bobob 邮件:zxbbobob@hotmail.com 要解析一个PDF文件,首先要掌握PDF的物理结构,这是第一步。但是这个仅仅只是基础,更重要的是对PDF逻辑结构的解析。PDF的逻辑大体上是一个树状结构,根节点是catalog字典,通过这里去解析页、目录、链接信息等等,在这里按照PDF的树形结构,详细讨论一下整个文件的逻辑框架。一、catalog根节点catalog是整个PDF逻辑结构的根节点,这个可以通过trailer的Root字段定位,虽然简单,但是相当重要,因为这里是PDF文件物理结构和逻辑结构的连接点。Catalog字典包含... 阅读全文

posted @ 2012-05-16 19:31 星空夜夏梦 阅读(769) 评论(0) 推荐(0) 编辑

PDF文件结构(一)

摘要: PDF文件结构(一) ————物理结构 作者:bobob 邮件:zxbbobob@hotmail.com PDF(Portable Document Format,便携式文档结构)是一种很有用的文件格式,其最大的特点是平台无关而且功能强大(支持文字/图象/表单/链接/音乐/视频等).做PDF的解析,首先要熟悉PDF文件的物理结构和逻辑结构。PDF文件物理结构可分为以下几块: 1.文件头 文件头是PDF文件的第一行,格式如下: %PDF-1.4 这是个固定格式,表示这个PDF文件遵循的PDF规范版本,目前PDF的生成工具,除了官方的acrobat,其他生成的以1.4版本的居多。对于做PD... 阅读全文

posted @ 2012-05-16 19:28 星空夜夏梦 阅读(707) 评论(0) 推荐(0) 编辑

PDFBOX简介

摘要: 原文标题:Making PDFs Portable: Integrating PDF and Java Technology 原文日期:2005年3月24日 原文作者:Ben Litchfield摘要 自从Adobe公司1993年第一次发布公共PDF参考以来,支持各种语言和平台的PDF工具和类库就如雨后春笋般涌现。然而,Java应用开发中Adobe技术的支持相对滞后了。 自从Adobe公司1993年第一次发布公共PDF参考以来,支持各种语言和平台的PDF工具和类库就如雨后春笋般涌现。然而,Java应用开发中Adobe技术的支持相对滞后了。这是个奇怪的现象,因为PDF文档是企业信息系统存储... 阅读全文

posted @ 2012-05-16 18:55 星空夜夏梦 阅读(1074) 评论(0) 推荐(0) 编辑

导航