纯文本抽出通用程序库 让您不再为文本抽出和处理发愁!

该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出,通过该程序库,用户可以轻松获得各种格式文档的文字信息,方便检索和处理。

功能:

(1)文件自动识别:可识别源生成文件和其版本,文件的识别不是根据文件的扩展名,而是根据文件内部信息进行识别。

(2)文本抽出:从指定的文件或嵌在文件中的OLE对象中抽出文本数据。

(3)属性抽出:从指定文件中,将文件属性抽出到属性结构体中。

(4)页面抽出:从指定文件中,抽出指定页中的文本数据。

(5)加密PDF文件抽出:从设定了安全包保护的PDF中抽出文本数据。

特点:方便、实用、快捷、及时、准确、完整的找到您想要的信息。

(1)模块化程序设计:采用灵活、合理的模块化程序设计与结构,可以高速化进行文本抽出,对新的文件格式迅速作出模块对应。具备多语言处理的程序模块,且各模块具有可移植性。

(2)支持多平台操作: windows版(暂无WIN7)、sun sparc版solaris2.5以上、 linux(glibc2.1以上)、IBM IX 5L version5.1、powerPC MacOS X

(3)支持多语言:中文(简/繁),英语、日语、汉语、韩语。文本抽出文体支持办公常用文体集合,生成标准html文档,适用于各种浏览器。

(4)支持多线程技术:支持server端多道并发操作,方便用户嵌入各种应用系统。

(5)支持数十种数据文件格式:ms office系列、microsoft rtf、adobo pdf及pagemaker、autocad系列、lotus1-2-3系列、wordperfect、mail系列(eml,msg)、压缩文件系列(zip,rar,lzh,tar,gzip) 、html、xml等数十种数据文件格式。

(6)提供多种形式的API函数接口:C++/C、COMM、perl的API函数接口。

应用领域:

图书馆(各大图书论坛)、Internet搜索引擎、mail检索系统等大型应用系统中。

posted @ 2014-07-22 13:15  红樱枫  阅读(173)  评论(0编辑  收藏  举报