摘要:
前面的介绍文本是转载的,实际上和一本书上的内容大致相同(除了代码)。 1、使用PDFBox处理PDF文档 PDF全称Portable Document Format,是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,可以在Windows、Unix或Mac OS等操作系统上通用。 PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中... 阅读全文
摘要:
word或Excel程序是以一种COM组件的形式存在的。如果能从Java中调用word的COM组件,就能够使用它的方法获取Word文档中的文本信息,目前网上也有很多提供这种操作的工具。使用jacob前应确保本机安装有Word的应用程序,否则无法建立Java-COM桥,进而无法解析。jacob的下载地址为http://sourceforge.net/project/showfiles.php?gro... 阅读全文