摘要: 需求:用java分页提取PDF文本。 PDFBox是一个很好的可以满足上述需求的开源工具。 1.PDF文档结构 要解析PDF文本,我们首先要了解PDF文件的结构。 关于PDF文档,最重要的几点: 一,PDF文档内容比较复杂,比如有纯文本(可以提取出其中的文字,可以用PDF软件中的“复制”功能)、图片 阅读全文
posted @ 2015-12-25 09:14 叶莜落 阅读(5364) 评论(0) 推荐(0) 编辑