数据转换服务-纯文本抽出技术
随着网络信息时代的发展,数据转换技术也在不断的飞速发展。人们可以通过计算机与互联网联接,从世界各地实时的接收和发送大量、最新的信息,但在信息交换的过程中存在着一个突出的问题,就是多种多样的数据格式,给信息的有效使用带来了障碍。所以在信息时代,如何以最便捷、最可靠、最有效的方式获取所需的信息是一个很大的困扰。如何让用户在必要的时刻快速简单的得到必要的数据--HYFsoft(北京红樱枫软件有限公司)的数据格式转换技术日益受到社会的瞩目。
经过多年的不懈努力和研究,我公司已经掌握了200种以上的文件格式,并在此基础上掌握了一套分析文件格式的方法。可以为用户提供全方位的数据格式转换。我公司提供的数据格式转换有以下几大优点:
1.保证文件格式之间不失真的数据内容转换
非常真实的再现原文件格式要表现的数据内容。
2.实现文件格式之间的多方向转换
可以实现字处理之间,表计算之间、数据库之间、矢量图形之间、图像之间的数据转换,而且还以实现字处理、表计算、数据库、矢量图形、图像等上述这些不同类型的数据也可以相互进行转换。
3.不依赖于原文件作成的软件和显示技术
在数据转换过程中完全独立对文件格式进行分析转换,不需要安装生成文件的原软件。
4.支持多平台、多語言、多线程的数据转换技术
◆支持Windows9X/2000/NT、Linux、Solaris、AIX、HP-UX、Macintosh
◆支持多国语言的文字代码集合。中文简体(GB2312、GB18030、GBK),中文繁体(Big5),日文(Jis、Shift_Jis、EUC_JP),韩文(KoreanKSC),西文(ISO8859-1~15)、Unicode(UTF8、UTF16、UCS4、UCS8)等文字集合。从设计上可以支持世界上任何一种文字代码集合的文件
◆程序的多线程控制使数据格式转换软件可以在各种环境的服务器上以多线程的方式运行,实现多用户并发操作
三.数据转换服务
利用我公司自主开发的数据格式转换产品,面向社会各界,提供数据转换技术服务。根据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式。本公司向广大用户承诺,数据格式转换结果满足用户的需求,收费价格合理。为用户提供质量优良的技术服务。
DMC Text Filter是北京市红樱枫软件有限公司自主独立开发完成的,支持多平台、多线程、多语言的通用文本抽出程序库。利用该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出。
(1)原数据文件的语言
中国语(简体/繁体),英语,日本语及韩国语。
(2)文本抽出时可以指定以下的文字集合
★中文简体(GB2312、GB18030、GBK)
★中文繁体(Big5)
★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)
★韩文(KoreanKSC)
★西文(ISO8859-1~15)
★Unicode(UTF8、UTF16、UCS4、UCS8)
(3)原数据文件格式的种类
·Microsoft Word95/97/98/2000/2003/XP
·Microsoft Excel95/97/2000/2003/XP
·Microsoft PowerPoint95/97/2000/2003/XP
·Adobe PDF 1.2/1.3/1.4/1.5
·Adobe PageMaker 6.0/6.5
·Microsoft RTF
·Lotus 1-2-3 R5/97/98/2000
·Works 2000 WP/DB/SS
·一太郎 7/8/9/10/11/12/13
·OASYS V3/V4/V5/V6/V7/V8 OA2
·ClarisWorks 4.0
·AppleWorks 6
·WordPerfect Office 2000(仅限于WordPerfect 8/9 )
·Corel Presentations 9(Slide show 7/8/9)
·QuarkXPress 3.3/4
·AutoCAD R13/LT95/ R14/LT97 DXF
·AutoCAD 2000/2002
·DocuWorks Ver.4/5
·HTML
·XML
(4)文本抽出时可以指定以下的功能
★从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
★从指定的文件中,将文件的属性信息进行抽出。
★从指定的文件中,抽出指定页中的文本数据。
★从设定了安全保护的PDF文件中抽出文本数据。