摘要: 前面的介绍文本是转载的,实际上和一本书上的内容大致相同(除了代码)。 1、使用PDFBox处理PDF文档 PDF全称Portable Document Format,是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,可以在Windows、Unix或Mac OS等操作系统上通用。 PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中... 阅读全文
posted @ 2009-01-19 16:06 何婧 阅读(33132) 评论(8) 推荐(4) 编辑
摘要: word或Excel程序是以一种COM组件的形式存在的。如果能从Java中调用word的COM组件,就能够使用它的方法获取Word文档中的文本信息,目前网上也有很多提供这种操作的工具。使用jacob前应确保本机安装有Word的应用程序,否则无法建立Java-COM桥,进而无法解析。jacob的下载地址为http://sourceforge.net/project/showfiles.php?gro... 阅读全文
posted @ 2009-01-19 14:38 何婧 阅读(2599) 评论(0) 推荐(0) 编辑