纯文本抽出通用程序库让您不再为文本抽出和处理发愁！

该程序库可以从数十种数据文件格式中，将纯文本数据进行抽出，通过该程序库，用户可以轻松获得各种格式文档的文字信息，方便检索和处理。

功能：

（1）文件自动识别：可识别源生成文件和其版本，文件的识别不是根据文件的扩展名，而是根据文件内部信息进行识别。

（2）文本抽出：从指定的文件或嵌在文件中的OLE对象中抽出文本数据。

（3）属性抽出：从指定文件中，将文件属性抽出到属性结构体中。

（4）页面抽出：从指定文件中，抽出指定页中的文本数据。

（5）加密PDF文件抽出：从设定了安全包保护的PDF中抽出文本数据。

特点：方便、实用、快捷、及时、准确、完整的找到您想要的信息。

（1）模块化程序设计：采用灵活、合理的模块化程序设计与结构，可以高速化进行文本抽出，对新的文件格式迅速作出模块对应。具备多语言处理的程序模块，且各模块具有可移植性。

（2）支持多平台操作： windows版（暂无WIN7）、sun sparc版solaris2.5以上、 linux（glibc2.1以上）、IBM IX 5L version5.1、powerPC MacOS X

（3）支持多语言：中文（简/繁），英语、日语、汉语、韩语。文本抽出文体支持办公常用文体集合，生成标准html文档，适用于各种浏览器。

（4）支持多线程技术：支持server端多道并发操作，方便用户嵌入各种应用系统。

（5）支持数十种数据文件格式：ms office系列、microsoft rtf、adobo pdf及pagemaker、autocad系列、lotus1-2-3系列、wordperfect、mail系列（eml，msg）、压缩文件系列（zip，rar，lzh，tar，gzip）、html、xml等数十种数据文件格式。

（6）提供多种形式的API函数接口：C++/C、COMM、perl的API函数接口。

应用领域：

图书馆（各大图书论坛）、Internet搜索引擎、mail检索系统等大型应用系统中。

posted @ 2014-05-21 10:56 红樱枫阅读(156) 评论(0) 收藏举报

刷新页面返回顶部

红樱枫

北京红樱枫软件有限公司(HYFsoft)是于1997年2月在北京投资设立的一家外商独资企业。HYFsoft公司致力于数据转换和手机文档浏览器的研究及开发。

纯文本抽出通用程序库让您不再为文本抽出和处理发愁！

公告

红樱枫

北京红樱枫软件有限公司(HYFsoft)是于1997年2月在北京投资设立的一家外商独资企业。HYFsoft公司致力于数据转换和手机文档浏览器的研究及开发。

纯文本抽出通用程序库 让您不再为文本抽出和处理发愁！

公告

纯文本抽出通用程序库让您不再为文本抽出和处理发愁！