再见,Doc!

    再见,Doc!——我相信这是一个进步,开放文档格式正在取代封闭的格式。

    文字让人类有了记忆,而计算机和网络的出现,让我们在短短几年内所创造的电子内容远远超越人类历史上所记载的所有内容。在所有的电子内容中,有80%以上 的数据是非结构化形式存在的,譬如电子邮件、电子文档、多媒体都属于非结构化数据,显而易见,电子文档作为其中一种非常主要的载体,承载了大量有价值的信息。

    过去很多年来,我们幸福的享受着MS Office所带来的便利,毫不迟疑的把这些内容装到Doc里,但因为Doc格式的私有和封闭,自新的开放文档格式标准ODF(ISO/IEC 26300:2006)、OXML(ISO/IEC 29500:2008)、UOF(GB/T 20916-2007)开始实施,Doc将逐渐退出历史舞台,成为非主流的、被兼容的格式——基于Doc格式在历史上的广泛应用,相信Office厂商在 一定时期内不会放弃对这种格式的兼容支持,但要客观地认识到,所谓“兼容性”的支持是有限度的,并不能够保持百分百的一致性【见图一】。但随着时间的推 移,当我们所接触的Doc文档越来越少,而标准格式在不断的发展和普及,在那个阶段,我们计算机里的程序可能已经难以准确的解析这些Doc文档——当我们 怀抱着一个已经打不开的保险箱时,已经事实上失去了对它的拥有。

 
                                                              【图一】

    2008年6月30日,微软宣布开放二进制文档格式规范尽管规范内依然存在部分类似“fLineWrapLikeWord6”这样没有精确诠释的field,但显然比早期做兼容性时依靠大量的案例来作对比分析要容易多了。最近,红旗2000正在以相当数量的文档案例的集合作为参照,旨在让RedOffice更精确的解析微软二进制文档格式。但正如图一所例举的MS Office 2007对其自身Doc二进制格式的兼容程度,文档格式兼容只能是“约等于”,而基本不存在“等于”的可能——也正因为这样,对Doc兼容性支持的根本目的在于对用户的历史数据负责,而新的文档,将启用开放的、被广泛支持的、没有技术和法律风险的文档格式标准。

当你开始放弃Doc格式时,会有一些阵痛,但这种转变却势在必行,无论我们将文档存储为ODF、UOF抑或OXML,至少在借助开放性、标准化的力量,确保我们能够永久的拥有这些数据——而不会面临“保险箱生锈”的困境。 

   
                        【二进制格式】                                  【开放文档格式】

 注:文中所述的“Doc”,泛指 Microsoft Office 97/2000/2003 所使用的二进制文件格式。

 

    杨少梁:产品总监
近10年的软件研发经历,和丰富的产品管理经验。领导着操作系统和办公软件等多条产品线。长期专注于国产基础软件革新与发展。
E-mail : YangShaoliang@RedOffice.com

来源:红旗2000官方博客 文章:再见,Doc!
posted @ 2009-06-24 15:52  RedOffice  阅读(468)  评论(2编辑  收藏  举报