文档和内容管理

一、简介

  文档和内容管理是对存储在关系数据库以外的信息的采集、存储、访问以及使用的控制活动。文档和内容管理的侧重点在完整性和访问控制上。因此,它与关系数据库的数据操作管理大致相同。由于多数非结构化数据与存储在结构化文件中的数据和关系数据库有直接关系,管理决策需要在这3个领域保持一致。然而,文档和内容管理的重点不是纯粹的操作层面。它的战略重点与其他数据管理职能互相有些重叠,主要用于满足非结构化数据的治理、架构、安全、受控的元数据和数据质量的需要。

  正如其名所示,文档和内容管理包括如下两个子职能。

    • 文档管理——是对电子和纸质文件的存储、详细编目和控制。文档管理包含控制和组织文档与档案的过程,技巧和技术,它对电子或纸质文档都适用。

    • 内容管理——指对信息内容进行组织、分类和结构化的访问所涉及的过程,技巧和技术,它将实现对文档进行有效的检索和重用。内容管理在门户网站的建设方面尤其重要,但基于关键词搜索的技术和基于分类的组织可以运用于技术平台之外。有时候,内容管理又被称作企业内容管理(ECM),这意味着内容管理的范围涉及整个企业。

  一般来说,文档管理并不关注文件中的具体内容。一个文件的信息内容通常可以帮助管理该文件,但是文档管理将其视为一个单独的个体。内容管理则关注每个文件的内在内容并试图识别和使用这些包含在文件中的信息内容概念。

  图10.1为文件和内容管理的关联图。

二、概念和活动

  随着业务流程和角色相互交织,以及厂商试图扩大其技术产品的市场,文档管理和内容管理的界限正变得越来越模糊。

  本指南介绍的这些数据管理基本原则同时适用于结构化和非结构化数据。非结构化数据是很有价值的公司资产之一。有效存储、完整性、安全,内容质量、访问和使用对管理非结构化数据起着指导作用。非结构化数据对治理、架构、安全,元数据和数据质量也有要求。

  文档管理系统用于追踪和存储电子文件和纸质文件的电子图像。文档库系统、电子邮件系统和图像管理系统是文档管理系统的特殊形式。文档管理系统一般提供存储、版本管理、安全、元数据管理、内容索引和检索功能。

  内容管理系统用于收集、组织、索引和检索信息内容,并将其内容存储于部分或完整文档,与此同时维持这些部分间的联系。它还对文件间修改信息内容进行控制。文档管理系统也许同样可以提供内容管理功能,然而内容管理系统不关心这些文件存储在哪里以及如何存储。

2.1 非结构化数据

  非结构化数据是尚未标记或记录于行和列的数据,如文件,图形、图像、文字、报表、表格、视频或录音。非表格数据包括非结构化数据和标签数据。这个名称的内涵有一定的歧义,因为这些格式中也包含一些结构,例如段落和篇章。

  据估计,多达80%的数据存储在关系数据库之外。非结构化或半结构化数据的含义以存储于上下文中的信息形式呈现。有人把存储于关系数据库之外的数据称作非表格数据。当然,总是有一些结构让数据呈现出来,这个结果的表现形式很可能是表格。没有一个术语能适当地描述非结构化数据所包含的大量不同格式。

  非结构化数据存在于不同的电子格式中,包括Word文档、电子邮件、平面文件、电子表格,XML文件、事务性消息、报告,商业图表、数字图像、缩微胶片、录像和录音,大量的非结构化数据同样存在于纸质文档中。

2.2 文档/档案管理

  文档/档案管理是组织中重要文件生命的周期管理。不是所有的文档都如该组织的业务活动和遵守法规证据那样重要。

  虽然人们希望有一天技术能把这个世界无纸化,但是今日的世界仍然充斥着大量的纸质文件和档案。档案管理是对纸质和微缩胶片、影片档案的管理,包括从它们的创建、加工、分发,组织和恢复到它们最终被转储的过程。档案可以以物理形式存在,如文件、备忘录、合同,报表或缩微胶片,也可以是电子格式,如电子邮件内容、附件和即时消息﹑在网站上的内容、在媒体和硬件的所有类型的文件,以及包含在各种数据库里的数据。甚至有像穿孔卡片那样混合多种格式的组合档案(穿孔卡片就是将细节或辅助材料嵌人一个缩微窗口形成的纸档案)。

  据统计,现在90%的以上档案是电子格式,因此对于一个组织而言,越来越多的电子邮件和即时消息使得电子档案的管理显得尤其重要。遵守法规和条例(例如美国的萨班斯法案,民事诉讼中联邦民事诉讼规则的电子查找修正案和加拿大的198法案)如今成为公司合规人员的关注点,而它们反过来也促进了一个组织内档案管理办法的标准化。

  考虑到许多隐私,数据保护、身份盗用问题,档案管理过程中设计到个人的数据一定不能保留,也不应跨越国际边界进行传输。而来自市场和监管的压力导致企业更加注重档案的保存计划、地点、运输和销毁。

  文档/档案管理的生命周期包括以下活动。

    • 识别已有和新建文档/档案。

    • 文档/档案政策的创建、批准和实施。

    • 文档/档案的分类。

    • 文档/档案保留政策。

    • 存储—纸质和电子文档/档案的短期和长期存储。

    • 检索和流转——按照政策、安全、控制标准和法律要求允许访问和流通文档/档案。

    • 保存和处理——根据组织需要、状态和规定来存档和销毁文档/档案。

  数据管理专业人员是数据分类和保留计划的相关决策者,以支持与某些特定非结构化数据相关的基础结构化数据之间的业务水平一致。例如:如果成品输出报告被认为是合适的历史文档,那么在OLTP或仓库环境中的结构化数据可放心作为报告的基础数据。

2.2.1 规划文档/档案管理

  文档管理活动涉及在文档生命周期的不同阶段的计划,从其创建或接收、检索、流转和存档到转储。制定分类/索引系统和分类法,使检索文档更加容易。基于文档和档案对组织的价值,创建自己的计划和政策,并作为商业交易的证据。

  需要建立、沟通和执行有关文档的政策、规程和最佳实践。在-一些司法管辖区的信息自由立法要求成立一些政府机构,经由他们通过非常正式的程序来处理公民们的文档需求。这些组织协调全部或部分文档的评价工作,并协调文档全部或部分文档的发布以及发布的时机。

  首先,确定管理文档/档案的责任单位。该单位制定短期和长期的档案存储计划;根据公司标准和政府规章创建和管理档案保留政策;协调内外部裆案的访问和分发,并整合最佳实践和组织中其他部门的流程;同时还为关键文档/档案创建业务连续性计划。

  最后,该单位需制定并实施存档的保留计划和条例,例如选择哪些档案长期保存。档案根据操作需要、规程、状态和法规要求在生命周期结束后予以销毁。

2.2.2 实现文档/档案管理系统的获取、存储、访问与安全控制

  文档可在文档管理系统内部创建,也可以通过扫描器或OCR软件来获取。这些电子文档必须在获取过程中由关键词或文字形式索引,以便于查找。元数据,例如文档的创建、修改、存储的日期,创建者的姓名,通常都要存储起来。它可以自动分离出来或由用户添加。目录档案文档是描述性结构数据,通常符合机器可读编目(MARC)格式标准,它们存储在本地图书馆数据库,只要在隐私和许可下可提供全球范围的共享目录。

  文档存储包括这些文档的管理。文档库可以实现登录/登出功能、版本、协作、比较、归档、状态、从一个存储介质迁移到另一个介质,以及转储功能。文档可以使用一个唯一的文档标识符或通过指定的部分搜索字词进行检索,这些搜索词涉及文档分类标识和预期的元数据等。

  报表可通过许多工具生成,包括打印机、电子邮件、网页、门户号码,短信以及文档管理系统的接口。利用工具软件,用户可以根据需要搜索、查看、下载、登录/登出和打印报表。报表管理包括添加、修改和删除文件夹中的报表。报表保存可以设置为自动清除或保存至其他媒介,例如磁盘、光盘等。

  由于需要的功能相似,许多文档管理系统都包括电子资产管理,这是对例如音频,视频、音乐和数码照片的数码资产的管理,其任务包括数码资产的分类、存储和检索。

  一些文档管理系统具有可以支持不同的工作流程管理的模块,例如:

    • 手动工作流程,用户指明文档要发送到什么地方。

    • 以规则为基础的工作流程,规定在组织内文档的流向。

    • 动态规则,根据内容允许不同的工作流程。

  文档管理系统有权限管理模块,管理者可以根据文档类型和用户角色来管理访问权限。组织可以决定某些类型需要额外安全或控制程序。安全限制包括隐私和密级限制,可在文档的创建、管理和传送过程中实施。电子签名保证了文档传送者的身份,信息的真实性及其他方面。一些系统比较重视数据和信息的控制和安全,而不是其访问、使用或检索,在知识、军事和科学研究机构里尤其是这样。竞争激烈或管理严格的产业,例如制药和金融产业,同样实施着极其安全和控制的方法。

  基于数据的重要性以及数据崩溃或无法读取产生的预期危害,不同程度的控制都有计划。ANSI标准859(2008)有3个控制级别:正式(最严格)、修订、托管(最宽松)。

  若要建立文档的控制,推荐使用ANSI 859的标准。正式控制要求正式的变更发起,彻底改变的影响评价,不同机关的决定,给利益相关者一份全面的执行和验证的状态报告。修改控制没那么正式,在需要变更时通知利益相关者,并递增版本。托管控制最不正式,仅需要安全存储和一套检索方法。表10.1是一个数据资产的示例列表和集中控制级别。

  当决定了数据资产的控制级别时,ANSI 859建议使用以下标准:

    (1)供应成本和更新资产。

    (2)项目影响,当改变有重大成本或计划结果时适用。

    (3)其他可以改变企业或项目的结果。

    (4)需要再次使用资产或之前版本的资产。

    (5)保留变化历史(当对于企业或项目很重要时)。

2.2.3 备份和恢复文档/档案

  文档/档案管理系统需要成为整个公司所有数据与信息备份和恢复的一部分。文档/档案管理者应参与风险降低和管理,以及业务连续性活动,尤其是关于关键档案的安全性问题时。从阻碍一个组织进行正常的运行角度风险可以分为部分和全部威胁。使用接近在线备份、热备份或冷备份能帮助解决一些问题。可能的灾害包括断电、人为错误,网络和硬件故障、软件故障,恶意攻击以及自然灾害。业务连续性计划(有时称为灾难恢复计划)载有书面政策、规程和和信息,以便减轻威胁的影响,并在发生灾害时,用在最短的业务中断时间内恢复。

  一个关键档案规程为组织提供了该档案的访问以便在灾害时指导其交易过程,并在恢复之后继续常规交易。关键档案系统必须可是唯一性的,并有保护和恢复的可持续性计划。业务连续性的执行应包括重要档案的恢复。负责重要档案的员工和经理都需要培训,并且需要进行内部审计来确保重要规程得到遵守。

2.2.4 保留和处置文档/档案

  文档/档案保留和处置程序定义了一个时间段,在其间必须维护文档/档案的操作、财务或历史数值。它规定了何时文档/档案不再起作用并被转移到二级存储设备,例如站外存储。该程序明确了合规流程、方法和文档/档案的处置计划。

  文档/档案的保存有软件要求。电子文档要求软件版本和操作系统的适当组合来实现存取。安装新的软件版本或是技术改变可能引起系统崩溃﹐或是完全丧失数据的可读性及可用性。

  文档/档案经理们必须处理隐私和数据保护的问题,以及档案的身份盗用问题。他们要确保不保留可识别到个人的数据。这要求我们建立档案保留计划是明确如何来销毁文件/档案。

  在建立文件/档案保留计划时应当考虑合法和法规的要求。电子档案适合于对民事和刑事法律案件的检索。以上列出的所有类型的电子档案都可以作为证据,包含电子邮件,对此人们应该更加注意。

  非增值信息应从组织的存档中移除以防止浪费物理和电子空间,从而避免相关的维护费用。对于优秀的档案管理来说,政策和规程的改进和遵从也是至关重要的。

  许多组织不重视移除非增值信息是因为:

    • 政策不适当。

      • 一个人看来是非增值信息在另一人看来却是有用信息。

      • 无法预见现在的非增值实体和电子档案未来是否需要。

    • 不认可档案管理系统。

      • 无法决定删除哪些档案。

      • 做决定的思维成本和移除实体和电子档案的成本。

      • 电子空间便宜。购买更多空间比归档和清除过程更容易。

2.2.5 审计文档/档案管理

  文档和档案管理要求定期审计来确保正确的信息在正确的时间送达正确的人员,以做决策或进行运营活动。表10.2是审计方法的一个例子。

  审计活动通常包括:

    • 定义“为什么”要进行文件和内容管理的组织驱动力、识别利益相关者。

    • 一旦确定了检查的目的、方法和使用的工具(例如标准、基准、访问调查),就要在过程中为此收集相关数据。

    • 报告结果。

    • 建立未来的行动计划和时间表。

2.3 内容管理

   内容管理是对数据和资源的组织、分类和构造,以便在不同地方存储、发布和重用它们。内容包括数据和信息在生命周期各个阶段中不同形式的成品。内容可存在于电子,纸质或其他媒介上。在内容的完整形式上,很多内容对于一个组织来说很可能成为档案问题,并在档案生命周期的不同阶段要求不同的保护措施。

  内容的生命周期可以是活跃的,在发布之前,通过受控的创建、修改和协作过程可以进行每日更新。根据内容的类别不同,受控过程可以是正式的(严格存储、管理、审计,保留或丢弃)或非正式。

  通常情况下,内容管理系统通过创建、修改、存储,组织和发布来管理网站和内部网的内容。然而,内容这一词条本质上已经很宽泛,包含本章已讨论的非结构化信息和技术。许多数据管理专业人员可能涉及本节中的许多概念,例如XML 的各个方面。

2.3.1 定义并维护企业信息分类标椎(信息内容架构)

  对于“什么是信息内容架构或信息架构?信息架构师的职责是什么?”的问题,已经有很多相关论述。通常,可以理解为这是一个构建信息或内容主体的过程。

  对于一个文档或内容管理系统,内容架构识别文档和内容之间的联系和关系,说明文件的要求和属性,定义文档的内容结构或内容管理系统。

  对于网站管理,信息内容架构专门针对于网站建设。它可识别发布内容的主人和发布时间表。站点的菜单结构采用通用的导航模式进行设计。

  当创建信息内容架构时,会用到信息分类元数据(和其他元数据)。开发内容模块时通常会用到元数据管理和一些数据建模技巧。

  分类法是一种分类的科学和技术。它包含一些受到约束的词汇,可用于帮助控制导航和搜索系统。理想状态下,企业数据概念模型中的词汇和实体应该协调一致。分类法是从世界的本体论角度发展起来的。

  分类法分为4种类型:

    • 扁平式分类体系(flat taxonomy),其中所有的类别都是平等的,相互之间没有关系。例如一个国家名称列表。

    • 多面式分类体系(facet taxonomy),每个节点都和中心节点连接。每个面都是中心节点的属性。例如元数据,每一个属性(创建者、名称、访问权限、关键词、版本等)就是一个内容主体的一个面。

    • 层级式分类体系(hierarchical taxonomy),至少有两层的树形结构并且是双向的。层级向上走对类别进行扩展;向下走对类别进行细化。例如地理上,从大洲逐步降级到具体地址。

    • 网络式分类体系(network taxonomy),一个网络式分类同时从层级和多面两种模式来组织内容。在网络式分类中任意两个节点之间的连接都是基于它们的联系。例如推荐引擎(……如果你喜欢那个,那么你很可能也喜欢这个……),再如百科全书。

  本体是一种模型,代表一套概念和它们在某个领域内概念之间的关联。数据建模技术中的声明和图表都能描述这些概念及关系。大多数的本体描述的是个体(实例)、类(概念)、属性和关系。它可以是一系列的分类法和常见词汇库,用于知识表达和信息交换。本体通常与由多个类和定义组成的一个分类层级建立包含关系,例如把智能活动分解为许多简单的活动模块和层。

  语义建模是一种知识建模。它包含一个概念网络(关注概念和主题)和它们之间的关系。本体即是一个描述知识的语义模型,包括概念和它们之间关系的集合体。

2.3.2 建立信息内容元数据文档/索引

  非结构化数据内容的元数据开发有多种形式,主要基于以下几点:

    • 非结构化数据的格式。通常数据的格式决定了访问数据的方法(例如电子非结构化数据的索引)。

    • 相关非结构化数据中是否有可用的搜索工具。

    • 元数据是否可以自生成(如文件系统中那样)。如果可以,这将使开发工作量最小,因为采用已有工具非常简单。

    • 现有方法和方案是否可被采纳或适用(如图书馆目录)。

    • 需要细致彻底的检索功能(如在药学或核产业)。因此内容层面的详细的元数据是十分必要的,同时可以标注内容的工具也很必要。

  总体来说,维护非结构化数据的元数据实际上是维护各种本地分类与企业级元数据统一分类之间的交叉引用关系。档案管理经理和元数据专业人员承认,对于那些必须多年保存的文件、档案和内容,长效的贯穿组织的嵌入式管理方法是存在的。但把这些方法重新组织起来的代价相当高。在某些机构中,由一个集中的团队执行档案管理索引,分类法甚至和变异词汇的交叉引用维护活动。

2.3.3 提供内容访问和检索

  一旦内容按照元数据/关键词标记并且按照适当的信息内容架构分类,它将可以用于检索和使用。通过维护用户的元数据概要文件以与各个内容主题进行匹配的门户技术,很容易找出公司非结构化的数据。

  搜索引擎是对用户请求的信息进行检索,从网页内容中包含该关键词的网站获取信息的软件,例如:google。该软件包括几个组成部分:搜索引擎软件,网页爬虫(保存找到的网页 URL)、通过关键字和文本内容进行评分。搜索引擎可用于包含关键词文档的内容管理系统。Dogpile. com也是一个搜索引擎,它展现其他多个搜索引擎的检索结果。

  另一种方法是由专家使用多个组织内的搜索工具获取信息。这些非结构化的数据可用于听证、专用检索、行政查询等立法或监管报告的需要,例如证券委员会(SEC)就有一些相关例子,一些元数据工具如下:

    • 数据模型,用于在一个组织中针对各个部门的主题域来指导数据建模。·文档管理系统。

    • 分类系统。

    • 分类系统间的交叉引用方案。

    • 集合的索引(例如特定产品、市场或设施)。

    • 归档、区域或是异地控股的索引。

    • 搜索引擎。

    • 包含非结构化数据的商务智能工具。

    • 企业和部门。

    • 文件系统指数。

    • 项目经理控制记录。

    • 已发布的收藏报告、内容、参考资料和目录。

    • 特定或定期管理报告的集合。

    • 民意调查指标。

    • 听证会或者其他会议的录音管理系统。

    • 产品开发档案。

  万维网的发明人Tim Berner-Lee在2001年5月发表了《科学美国人》的文章,文中提到网络可以变得更智能,即众所周知的语义网。一些内容理解程序可以帮助用户找到那些想看的页面,这些程序依赖于自然语言、机读信息﹑模糊搜索方法、资源描述格式(RDF)元数据、本体和 XML等技术。

  可扩展标记语言(XML)促进了数据在不同信息系统和互联网中的共享。为识别数据含义,XML会对数据元素进行标记,而不仅仅依靠HTML 的格式表达。简单的嵌套和引用创造了数据元素间的关系。XML命名空间提供了一种方法来避免两个不同文档在使用相同元素名称上的冲突。旧有的标记方法包括SGML和GML等。

  XML是能够表达结构化和非结构化数据信息的语言。通过元数据,它可以描述任何文档或者数据库的内容、结构和业务规则。

  XML对于内容管理能力需求已经有所增加,以下是几种常见的方法:

    • XML具有将结构化数据融入非结构化数据关系数据库的能力。非结构化的数据可以存储在关系数据管理系统的 BLOB(二进制对象)字段或者XML文件中。

    • XML可以将结构化数据和非结构化数据整合到文档、报告、邮件、图形、图表、音频以及视频文件中。数据建模应考虑到结构化数据中的非结构化报告,建立数据质量纠错的工作流程、备份、恢复和归档。

    • 同时,XML还可以用于建立企业门户网站(B2B,B2C),为客户提供一个连接到各种内容的接入点。

  计算机程序无法直接处理非结构化数据内容,但XML可以识别和标注非结构化数据内容,使计算机程序能够识别和处理这些内容。这样,结构化的数据就可以附加在非结构化内容上。可扩展标记接口(XMI)包含了实际生成XML文件的元数据,以及 XML构成的规则。

  非结构化和半结构化数据对于数据仓库和商务智能也越来越重要。数据仓库和其他数据模型都包含了帮助使用者查找和分析非结构化数据的结构化索引。有一些数据库还包括了使用URL处理非结构数据的能力,将数据库表的查询结果作为超链接返回。

  键控RDF结构(Keyed RDF structures)被运用在搜索引擎从数据库和非结构数据管理系统中返回单一结果集。然而,使用键控RDF结构还不是一个行业标准方法。

2.3.4 治理内容质量

  非结构化数据的管理需要数据管理专员、数据管理专业人员以及档案经理相互协作,需要考虑与结构化数据治理相类似的动态因素。业务数据管理专员可以帮助确定门户网站企业分类.搜索引擎索引以及内容管理等问题。

  在一个组织中数据治理的重点包括文档和档案的保留政策、电子签名政策,报告形式以及报告分配政策。数据管理专业人员实施和执行这些政策以实现对非结构化形式数据资产的保护和平衡。在组织机构中满足业务需求的关键是强化档案管理专业人员能力。

  高质量、准确以及实时更新的信息对于商务决策至关重要。及时决策能够增加竞争优势和企业的效益。

  和结构化数据一样,定义档案和内容质量也是相当困难的:

    • 哪些人需要信息?需要考虑到最初信息的提供人和信息的使用人。

    • 什么时候需要这些信息?有些信息可能是定期需要﹐例如按月﹑按季或是按年度。其余的一些信息可能需要每天提供或是根本不需要。

    • 信息的格式是什么?报告的格式不能帮助有效使用,会导致其中的信息没有实际价值。

    • 交付机制是什么?对相关信息必须做出是否交付,是否可以通过电子手段访问的决定,例如,一条消息或者一个网站。

三、综述

  在组织中实施文档和内容管理的指导原则、每一个文档和内容活动相关角色的总结表,以及在文档和内容管理中可能出现的组织和文化问题,总结如下。

3.1 指导原则

  文档和内容管理功能在组织中的实现包括以下3个指导原则:

    • 未来每个人在组织中都承担数据保护的角色,每个人都需要创建、使用、检索和处理与既定政策和规程相关的档案。

    • 专家要充分参与档案和内容处理的政策制定和规划。在不同的行业和法律管辖区,法规和最佳实践上有很大区别。

    • 即使一些组织没有专职的档案管理专业人员,每个人可以通过培训获得理解这些问题的能力。经过培训业务管理专员可以和其他人合作进行有效的档案管理工作。

3.2 过程总结

  文档和内容管理职能的过程总结见表10.3。表中列举了文档和内容管理每一项活动的交付物、负责角色,批准角色和贡献角色,此表也在附录A.9中体现。

3.3 组织和文化问题

  Q1:档案管理在一个组织应该处于什么位置?

  档案管理职能不应看做是一个低级或者低优先级的职能,而应该提升到组织层面来对待。

  Q2:文档和内容管理专业中需要识别的最重要问题是什么?

  隐私、数据保护、机密性、知识产权、加密、道德问题以及同一性都是重要的问题,文档和内容管理专业人员必须同雇主,管理人员以及监管部门协作处理相关问题。

文末说明:参考书籍来自《DAMA数据管理知识体系指南》

posted @ 2022-12-05 15:14  落魄的大数据转AI小哥  阅读(526)  评论(0编辑  收藏  举报