参考数据和主数据管理
一、简介
在任何组织中,不同的群体、流程和系统需要相同的信息。早期流程中所创建的数据可为稍后流程所创建的数据提供关联环境。然而,不同的群体会基于不同的目的来使用相同的数据。例如,销售﹑财务和制造部门都关心产品销售数据,但每个部门会有不同的数据质量期望。为满足这些特定的需求,组织会建立特定的应用,每一个应用可能会以不同的格式存储相似但不完全一致的数据取值。这些不一致对整体的数据质量有显著的负面影响。
参考数据和主数据管理是对参考数据和主数据进行持续的协调一致和维护工作。
• 参考数据管理是对定义的数据域值(也称为词汇/术语)进行控制,包括对标准化术语、代码值和其他唯一标识符以及每个取值的业务定义的控制,和对数据域值列表内部和跨不同列表之间的业务关系的控制;并且对准确、及时和相关参考数据值的一致、共享使用进行控制,以进行数据分类和目录整编。
• 主数据管理是对主数据值进行控制,以实现跨系统的一致、共享、上下文相关地使用主数据,以及对核心业务实体的真实情况的最准确、及时和相关的版本进行控制。
参考数据和主数据提供了交易数据的关联环境。例如,一笔销售交易可以识别出该活动相关的客户,员工,被售出的产品或服务,以及其他参考数据如交易状态和任何适用的会计科目等,并可以派生出如产品类型和销售季度等其他参考数据元素。
截至本指南出版之时,尚没有哪一条足够通用的唯一术语可以涵盖参考数据和主数据管理。有时,有几条不同的术语都是用来表示参考数据和主数据管理。在使用这些术语进行交流过程中,参与者有必要清晰地了解每个术语使用的含义。
图8.1是参考数据和主数据管理的关联图。交易数据的质量非常依赖于参考数据和主数据的质量。提高参考数据和主数据的数据质量,能提高所有数据的质量,也会提升业务部门对自有数据质量的信心。
因此,所有参考数据和主数据管理规划都是专门的数据质量改进规划,其包括第12章中描述的所有数据质量管理活动。这些规划也依赖于第3章中所述的有效的数据管理制度和数据治理活动。参考数据和主数据管理只有作为一项持续的数据质量改进计划才是最成功的,不可能毕其功于一役。
参考数据和主数据质量改进计划的成本和复杂性由发起计划的业务驱动所决定。两种最常见的业务动因是:
• 跨数据源、应用和技术的条件下提升数据质量和整合度。
• 对于重要的业务相关方、角色和产品提供综合的360度信息视图,特别是提供更有效的报表和分析。
一旦确定了工作的成本和复杂性,清晰地理解业务动因,在现有标准及以往经验教训的支持下,与业务数据管理专员紧密合作,就能迭代地实施整体的参考数据和主数据管理解决方案。
二、概念和活动
尽管参考数据管理和主数据管理有着相似的目的和许多共同的活动和技术,两者之间还是有一些明显的差异。在参考数据管理中,业务数据管理专员通过内部定义或外部来源来维护有效的数据值列表(代码等)及其业务含义定义。业务数据管理专员还管理参考数据值之间的关系,特别是层次结构。
主数据管理需要对每个产品、地点、人员或组织进行识别,并开发一个关于其事实的“黄金”记录。在某些情况下,“记录系统”(System of Record)提供了一个实例的确切数据。然而,即使在一个系统中也可能会意外地为同一个实例产生多条记录。有多种技术可用于尽可能地确定一个实例的最准确和及时的数据。
一旦建立了最准确、最新的相关数据值,参考数据和主数据就可以在不同的交易型应用系统和数据仓库/商务智能环境之间一致共享使用。有时从主数据库将数据复制和传播到一个或多个数据库。其他应用程序可以直接从主数据库读取参考数据和主数据。
联机事务处理(OLTP)和数据仓库及商务智能环境都存在参考数据和主数据管理。理论上,所有的事务处理数据库应使用相同的黄金记录和数据值。不幸的是,大多数组织在跨交易系统环境中都在使用不一致的参考数据和主数据,所以不仅需要数据仓库系统来确认最真实的记录系统(System of Record),同时还要确定最准确的“黄金”参考数据和主数据值。数据仓库构建过程中要花很大的代价用于清洗和整合不同来源的主数据。有时候,一个组织甚至在数据仓库和商务智能环境中使用维度表维护诸如组织机构和产品层次等缓慢变化的参考数据,而不是在主操作数据库中进行维护并复制到其他业务数据库和数据仓库中。
要在跨应用程序之间有效地共享一致的参考数据和主数据,企业需要了解:
• 谁?需要什么信息?
• 不同的数据源中有哪些数据可用?
• 不同来源的数据如何不同?哪些值是最有效的(最准确、及时和相关的)?
• 如何协调信息的不一致?
• 如何有力并有效地分享最有效的数据值?
2.1 参考数据
参考数据是用于将其他数据进行分类或目录整编的数据。业务规则通常规定参考数据值是几个允许值之一。允许值的数据集是~一个值域。有些组织根据内部业务定义参考数据的值域,如参考数据-订单状态:新建立,处理中、完结、取消等。其他参考数据的值域可由像政府或行业标准等外部资源来定义,如美国的标准邮政编码中各州的两个字母缩写,例如,CA代表加利福尼亚州等。
多组参考数据的值域可以指向同一个概念域。每个值在其所在的值域集是唯一的。例如,每个州可能是:
• 正式名称(California)。
• —个法定名称(State of California)。
• 标准邮政编码缩写(CA)。
• 国际标准化组织定义(ISO)的标准代码(US-CA)。
• 美国联邦信息处理标准定义(FIPS)的代码(06)。
在所有的组织中,参考数据几乎都虚拟存在于整个组织的每一个数据库中。参考表(有时称为代码表)通过外键与其他关系数据库表链接,而且数据库管理系统的参照完整性功能确保其他表中只能使用参考表中的有效值。
一些参考数据集是只包含两列值的简单列表,如表8.1所示的一对代码值与代码的描述。该代码,摘自ISO 3166-1993国家代码,是基本识别码,在其他上下文中使用的短格式国家代码参考值。代码描述是一个更加有意义的名称或是屏幕上代替代码位置的标签、下拉列表和报告等。
请注意,在这个例子中,虽然UK是英国在一般交流中通常使用的一个短格式,但根据国际标准,英国国标码值是GB,而不是UK。
有些参考数据集包括对代表同一事物多个代码值的交叉引用。不同的应用数据库可以使用不同的代码集来表示同一概念属性。主交叉引用数据集可以从一个代码转换成另一种代码。请注意,如表8.2所示的FIPS州数字代码,数字代码只能为数字值,但不能对这些数字进行算术运算。
一些参考数据集还包括每个值的业务定义。定义标签本身并不能提供差异化信息。定义很少在报告或下拉列表中显示,但它们可能出现在应用的帮助功能中,指导在关联环境中规范合理地使用代码。
以表8.3中服务单状态为例,若没有定义代码值的含义,就不能有效和准确地跟踪服务单状态。这种类型的区别对于那些实现绩效度量指标或商务智能分析所需要的分类是尤其必要的。
一些参考数据集定义一种数据取值的分类法,如表8.4所示,使用通用标准产品和服务分类(Universal Standard Products and Services Classification, UNSPSC)指定数据值之间的层次关系。利用分类型参考数据,可以获得不同级别的特征定义信息,每个级别都能提供信息的准确视图。
在许多情况下分类型参考数据都很重要,尤其是对于内容分类、多方位的导航和商务智能。在传统的关系数据库,分类型参考数据按递归关系进行存储。分类管理工具通常可以帮助维护数据层级信息。
参考数据相关的元数据可能记录:
• 每个参考数据值域的意义和目的。
• 出现参考数据的参考表和数据库。
• 每个表中数据的来源。
• 目前可用的版本。
• 数据最后更新时间。
• 如何维护每个表中的数据。
• 谁负责数据和元数据的质量。
参考数据值域会发送缓慢变化。业务数据管理专员应维护参考数据值和相关元数据,包括代码值,标准说明和业务定义。针对参考数据集的新增和修改,要与参考数据的用户沟通。
业务数据管理专员不仅对内部定义的参考数据集负责,而且也对外部定义的标准参考数据集负责,监控它们的变化,当外部变化时与数据专家一起更新外部定义的参考数据。
2.2 主数据
主数据是关于业务实体的数据,这些实体为业务交易提供关联环境。与参考数据不同,主数据取值通常不受限于预先定义的域值。然而,业务规则通常规定了主数据格式和允许的取值范围。一般组织的主数据包括下列事物的数据:
• 当事人,包括个人、组织及其角色,例如客户、公民,病人、厂商、供应商、业务伙伴、竞争对手、雇员和学生等。
• 产品,包括内部和外部的产品。
• 财务结构,例如总账、成本中心、利润中心等。
• 位置,例如地址信息。
主数据是关于关键业务实体的权威的、最准确的数据,可用于建立交易数据的关联环境。主数据值被认为是“黄金”数据。
主数据管理这个术语来源于主文件这个术语,主文件是在数据库普及之前出现的一个名称。有些人认为主数据管理(Master Data Management ,MDM)仅是一个时脓的口号,很快就会被一些其他新流行语取代。然而,需要高品质的参考数据和主数据是永恒的追求,参考数据和主数据管理的技术和活动价值在未来会持续多年。
主数据管理是一套定义和维护流程,涉及如何在整个企业内创建、整合、维护并使用主数据。MDM 面对的挑战是:
(1)从潜在的有冲突的数据中确定最准确的黄金数据。
(2)使用黄金数据代替其他不准确的数据。主数据管理系统致力于确定黄金数据并按需提供使用。
可通过数据整合工具(例如的ETL)、数据清洗工具、作为主数据总线的操作型数据存储(Operational Data Stores,ODS),或专门的主数据管理应用系统来实施主数据管理。主数据的3个重点领域是:
(1)识别数据源内及跨数据源的重复记录来建立和维护主数据的全局唯一标识ID,及其相互之间的交叉引用关系,使信息整合成为可能。
(2)跨数据源的整合,提供“黄金记录”或事实的最佳版本。这些整合的记录提供一个跨系统的信息合并视图,以寻找定位姓名和地址的不一致。
(3)通过直接读或数据复制,使OLTP和 DW/BI数据库能够跨应用系统访问“黄金”主数据。
主数据管理需要组织回答如下问题:
• 被反复引用的重要的角色、组织、地点和事物有哪些?
• 描述同一个人、组织、地点或事物是哪些数据?
• 数据存储在哪里?数据源是什么?
• 哪些数据更准确?更可靠、可信的数据来源是哪些?最新的数据是哪些?
• 与特定需求有关的数据是哪些?这些需求怎么重叠或冲突?
• 哪些来自多个数据源的数据能够被整合以建立更完整的主数据视图,帮助我们更全面地了解人员、组织、位置和事物?
• 哪些业务规则可建立并用于准确地匹配和合并属于同一个人、组织、地方或事物的数据,从而提高主数据的质量改进的自动化程度?
• 如何识别和恢复被不恰当地匹配和合并的数据?
• 如何向跨企业的其他信息系统提供“黄金”主数据值?
• 如何确定何地、何时使用的不是“黄金”主数据?
与不同当事人交互的不同小组有不同的数据质量需求和预期。许多数据不一致问题是无法通过自动化方案解决,而需要通过数据治理途径解决。
主数据管理解决方案的需求可能有所不同,这取决于主数据类型(当事人、财务、产品、位置等)和支持交易需要的类型。需要依据主数据管理解决方案需要、组织的结构和业务驱动力实施不同的解决方案架构。主数据管理的数据总线和应用可能会专注于管理特定的主数据主题领域。
2.2.1 当事人主数据
当事人主数据包括有关个人,组织及商业关系中扮演的角色的数据。在商业环境中,这包括客户、员工、厂商、合作伙伴和竞争对手的数据。在公共部门,重点是关于公民的数据。在执法机构,重点是对犯罪嫌疑人、证人和受害者。在非营利组织中,重点是对成员和捐助者。在医疗机构,重点是对病人和提供者。而在教育系统,关注的是学生和教职员工。
客户关系管理(CRM)系统实现客户数据的MDM和其他业务功能。客户数据的MDM也被称为客户数据整合(CDI)。CRM数据库试图提供关于每位客户最完整和准确的信息。CRM系统比较来自多个来源的客户数据。CRM的一项重要功能是识别同一客户的重复、冗余以及矛盾的数据。
• 是对同一客户或两个不同客户的数据?
• 针对同一客户的数据,哪些数据值冲突?哪些更准确?哪些数据源更值得信赖?其他系统可能会完成针对个人,组织和其角色的类似主数据功能。例如,人力资源管理(Human Resource Management,HRM)系统管理员工和工作申请人的主数据。供应商管理系统管理供应商的主数据。
无论处于哪个行业,导致业务当事人主数据面临独特挑战的原因是:
• 个人和组织的角色及其间关系的复杂性。
• 识别唯一性的困难。
• 数据源的数量太多。
• 业务重要性和数据的潜在影响。
对于承担多个角色的企业组织,其主数据管理特别具有挑战性。
2.2.2 财务主数据
财务主数据包括有关业务单元,成本中心、利润中心,总账账户、预算、计划和项目的数据。通常,企业资源规划(Enterprise Resource Planning,ERP)系统充当财务主数据中心总线(会计科目),项目的明细和交易在一个或多个应用模块中被创建和维护。这种结构在分布式后端办公职能(distributed back-office functions)的组织中比较普遍。
财务主数据管理解决方案的重点不仅是建立,维护和共享数据,而且还模拟现有财务数据的改变会如何影响例如预算和计划等组织基线。财务主数据模拟往往是商务智能报告、分析和规划模块的一部分,重点是层级管理。创建不同版本的财务结构模型以理解其潜在的财务影响。一旦做出决定,达成一致的结构变化能够分发给所有相关的系统。
2.2.3 产品主数据
产品主数据可能专注于一个组织的内部产品或服务,或整个行业的(包括竟争对手)的产品和服务。产品主数据可能是结构化或非结构化格式。它包括的有关信息可能有装配组件清单、零件/原料的使用、版本、修补、价格、折扣条款、配套产品、手册、设计文件和图像(CAD 图纸)、配方(制造说明)和标准操作规程等。产品主数据管理可能有专用系统或ERP应用来实施。
产品生命周期管理(PLM)重点管理产品或服务的生命周期,从概念(例如研发)阶段开始,横跨其开发、制造、销售/交货、服务和处置等各个阶段。组织实施PLM系统的原因有许多。PLM在提高整体数据质量的同时通过利用先验信息可以帮助缩短产品上市时间。在产品开发周期长的行业(制药行业最多可高达8~12年),当产品这个概念从一个理念(主意)逐步演化为不同名称之下,以及潜在的不同许可协议之下的多种产品时,生命周期管理系统能够全过程地跟踪跨流程的成本和法律协议。
2.2.4 位置主数据
位置主数据提供跟踪和分享不同地理参考信息的能力,并以地理信息为基础建立层次关系和地域区划以支持其他流程。对于位置参考数据和位置主数据来说,参考数据和主数据之间的区别有些模糊:
• 位置参考数据通常包括地缘政治数据,如国家、州/省、县、市/镇、邮政编码、地理区域、销售区域等。
• 位置主数据包括业务当事人的地址和位置,地理定位坐标,如纬度、经度和高度。
不同行业需要专门的地球科学数据(例如地震断层、洪泛平原、土壤、年降雨量、危险天气影响风险地区等地理数据)和相关社会学数据(人口,种族、收入和恐怖主义风险等),它们通常由外部数据源提供。
2.3 理解参考数据和主数据整合需求
发现和理解单一应用程序的参考数据和主数据的需求比较容易。而对跨应用,特别是跨整个企业的需求把握则难得多。分析数据质量问题的根本原因通常会发现参考数据和主数据整合的需求。成功地管理参考数据和主数据的组织每次都重点关注一个主题区域,分析在所有物理数据库和不同应用模式中一些业务实体出现的所有匹配情况。
2.4 识别参考数据和主数据的来源及贡献者
成功的组织首先理解参考数据和主数据的需求,然后跟踪这些数据的血缘关系,以确定数据的起始及中间的源数据库、文件,应用、组织,甚至创造和维护这些数据的角色岗位。要做到在了解上游数据源的情况下理解下游的数据需求,以期在数据的源头捕获高质量的数据。
2.5 定义和维护数据整合架构
正如第4章所讨论的,有效的数据整合架构控制数据的共享访问,复制和数据流向以确保数据质量和一致性,特别是针对参考数据和主数据。没有数据整合架构,只会是在应用孤岛中存在本地参考数据和主数据管理,因而不可避免地导致冗余和不一致的数据。
参考数据和主数据整合的基本方案有几种,有时比较容易确定某一权威数据源并正式将其建成记录系统(System of Record)。
代码管理系统可以是许多参考数据集的记录系统(System of Record),它的数据库将是记录数据库(database of record)。在图8.2中,记录数据库作为参考数据的“中心”向其他“分支(周边)"应用和数据库提供参考数据。有些应用程序可以直接从数据库中的记录读取参考数据和主数据,其他应用程序从数据库中订阅和复制发布的数据记录。直接从中心数据库中读取数据的应用必须在程序代码中管理自身的参照完整性,而复制数据的应用程序数据库可通过数据库管理系统(DBMS)软件实现参照完整性。
复制的数据实时更新其他数据库(同步、协调地更新)。更常见的是,当记录数据库发生更新时,复制的数据通过“订阅和发布”方法会近似实时地被推到其他应用程序的数据库中(异步更新)。在其他情况下,数据快照可以根据需要从记录数据库中复制(拉)。例如,某保险公司索赔系统是外购的应用程序包,加上自身的数据库,在处理相关索赔时从保单记录数据库中复制保单数据,以及时地反映保单的当前状况。
每个主数据主题域将可能有自己专用的记录系统(System of Record)。人力资源系统通常是雇员数据记录系统(System of Record)。CRM系统可以充当客户数据记录系统(System of Record),而 ERP系统可以作为财务和产品的记录数据系统。每个系统的数据库可作为某类主数据的权威主数据中心。
只有参考记录或主记录数据库才应是向数据仓库和数据集市复制参考数据或主数据的源系统,如图8.3所示。参考记录或主记录数据库的更新应该传播到数据仓库和数据集市中。
一个拥有多个记录的权威数据库的数据整合环境是非常复杂的。另一种基本的“运转中心(Hub and Spokes)”设计的实现方法是让每个记录数据库把其权威的参考数据和主数据提供给操作型数据存储(ODS)系统,再由ODS作为向所有OLTP应用提供参考数据和主数据的中心。有些应用程序甚至可以使用ODS作为自身的数据库使用,而其他应用程序可采用“订阅和发布”方法从ODS 数据中心复制数据到其专用的应用程序数据库中。
在图8.4中,4个不同的记录系统(System of Record)(A,B、C和D)提供4种不同的主题域主数据。系统A不需要系统B、C和D的数据,因此没有自身的数据库而直接更新A主数据。系统B,C和D有自己的应用数据库。系统B直接从ODS中读取A主数据,并向ODS提供B主数据。系统C给ODS提供C主数据,同B系统一样,它也从ODS中直接读A主数据,但订阅了从 ODS 中复制B主数据。系统D在向ODS提供D主数据的同时,也从 ODS接收主题域ABC的主数据。
这种设计的主要优点是与ODS的标准化接口和消除了点对点接口。这种方式简化了变更维护的过程。
在没有清晰的主数据记录系统(System of Record)时,数据中心模型特别有用。在这种情况下,由多个系统提供数据。来自一个系统的新数据或更新可能需要与其他系统已经提供的数据进行核对。ODS成为数据仓库主要数据源(如果不是唯一),降低了数据抽取的复杂性,并减少了数据转换、清洗和核对的处理时间。当然,数据仓库必须保存ODS的数据历史变更,而 ODS 只需要保存数据的当前状况。
数据整合架构也提供通用的数据整合服务,如图8.5所示。这些服务包括:
• 变更请求处理,包括评审和批准。
• 对外部获取的参考数据和主数据进行数据质量检查。
• 数据质量规则和匹配规则应用的一致性。
• 数据处理的统一模式。
• 一致的有关映射、转换、程序和工作的元数据。
• 一致的审计、错误的解决方案和性能监控数据。
• 统一的复制数据方法(包括“订阅和发布”)。
为了有效地协调不一致的参考数据和主数据,重要的是要确定哪些数据元素表示不一致和如何最好地表示这些数据。由于可能涉及多方利益相关者,建立主数据标准可能是一个耗时的任务,可能还需要对那些已经看惯其他格式数据的人员进行培训。不论整合技术如何,采用相同的数据标准能使参考数据和主数据能有效的标准化,共享和分布。
2.6 实施参考数据和主数据解决方案
参考数据和主数据解决方案不能在一夜之间实现。由于需求的多样性、复杂性和不稳定性,没有单一的解决方案或实施项目满足所有的参考数据和主数据管理的需求。在架构、业务优先级和实施计划路径的指导下,组织应期望通过几个相关的项目和阶段,采取迭代和增量方式实施参考数据和主数据管理解决方案。
有些组织可能有一个集中的代码管理系统,它为业务数据管理专员提供一个共同的、统一的设施来维护“黄金的”,权威的参考数据。代码管理系统是在业务数据管理专员控制下的参考数据记录系统(System of Record)。需要访问参考数据的其他系统可以直接访问代码管理数据库或接收数据库代码管理库中的更新数据。这些系统包括交易管理系统和数据仓库。尽管做出了最大努力,很少有系统能够保证完整的数据范围;不管什么原因,缺乏管理的参考数据仍然存在。
有些供应商提供主数据管理应用。通常情况下,这些应用程序是专门为客户数据整合(Customer Data Integration,CDI),产品数据整合(Product Data Integration,PDI)或其他主题领域的主数据管理,如其他当事人,位置和财务结构。有些还在商务智能环境中管理它们间的层次关系。其他一些厂商推广其数据整合软件产品和实施服务,以创建组织的主数据管理解决方案。
2.7 定义和维护数据匹配规则
主数据管理在未来面临的最大挑战是在多个系统中对于同一个人,群组和事物的数据进行匹配、合并、连接。关于人的数据间匹配特别具有挑战性。不同的系统中使用不同标识符来关联个人(对于组织,程度较轻),而个人有时在不同系统中存在于不同的角色,有时又存在于同一角色。应用匹配的目的是消除冗余,提高数据质量,并提供关于人员的更加全面的信息。
通过应用推理规则进行数据匹配。数据清洗工具和主数据应用程序通常包括用于匹配数据的匹配推理引擎。这些工具依赖于清晰的匹配规则,包括不同置信水平的匹配接受度。
有些匹配需要极高的信任度,可以基于跨多个字段的准确数据匹配来实现。而有些匹配仅仅是由于数据值的冲突,可建议采用较低的信任度。例如:
• 如果两个记录有相同的姓氏、名字,出生日期、社会安全号码,但街道地址不同,是否可以安全地假设他们是改变了邮件地址的同一人?
• 如果两个记录有相同的社会安全号码,街道地址和名字,但姓不同,是否可以安全地假设他们是同一人,只是改变了姓氏?基于性别和年龄是否能增加或减少相似可能性?
• 如果人员记录的社会安全号码未知,这些例子会怎么变化?还有什么标识符可以用来确定匹配的可能性?组织需要多少可信度来评估一个匹配?
尽管尽了最大努力,匹配决策有时还是被证明是错误的,所以保持匹配历史信息非常重要,以便在发现匹配不正确时可以撤销匹配。组织使用匹配率指标来监控匹配推理规则的效果和影响。针对以上3种不同的情景,可使用不同的关联工作流来建立匹配规则:
• 重复识别匹配原则,重点关注一组特定的用于唯一确定实体和识别合并机会的字段,但不自动合并。业务数据管理专员可以评审这些机会,并逐个确定行动计划。
• 匹配合并规则,重点关注记录的匹配并且将这些记录的数据合并为一个统一的综合记录。如果跨数据源应用该规则,那么需要在每个数据库中创建一个唯一和全面的记录。至少,可使用某一数据库中的受信任的数据记录,以关联到其他数据库并获取该记录相关的其他补充数据,用于替代缺失的值或被认为是不准确的值。
• 匹配链接规则,确定与主数据相关的记录,只建立交叉引用关系而不更新被交叉引用的数据记录的内容。匹配链接规则易于实现,并且更易于恢复原貌。
匹配合并规则实施起来非常复杂,主要是由于需要确定很多可能的条件,对于来源于不同数据库不同字段的数据取值具有不同的置信区间和信任度。匹配合并规则面临的挑战是:(一)整合数据的操作复杂性,(二)还原错误合并操作的成本。
尽管匹配链接规则可能更加难以从多个记录中提供综合信息,但就另外一方面而言,匹配链接规则是简单的操作,因为它仅需建立交叉引用表而不需要合并主数据的单个字段。
因为主数据的置信水平随时间发生变化,要定期重新评估匹配合并和匹配链接的规则。许多数据匹配引擎提供数据值的统计相关性来帮助建立新的置信水平。
可以通过分配全局标识ID实现同一个人在不同数据源中匹配记录的链接和整合。只能从一个权威的系统产生全局标识ID,因此每一个ID的取值是唯一的。将全局标识ID分配给跨系统的记录以实现交叉引用,可以在不同系统中实现交叉引用和匹配同一个人的数据。
2.8 建立“黄金”记录
建立最准确和完整的参考数据技术不同于用来提供最准确和完整的主数据的技术。因为参考数据集都是包括不同取值的数据值域,所以每个参考数据集都是被作为受控词汇来进行管理的。而建立“黄金”主数据值则需要通过更多匹配规则的推理和应用,以及结果审核来实现。
2.8.1 词汇管理和参考数据
词汇是术语/概念以及和相互之间的关系的集合。词汇可以在很多层次上对术语和概念进行描述。词汇之间的关系可能是,也可能不是严格的层次关系。业务数据管理专员负责维护词汇及其相关的参考数据集i代码、标签、意义、关联)。词汇管理包括词汇及其参考数据的定义、溯源、导入和维护。
作为单语种受控词汇表构建,格式化和管理的指南,ANSI / NISO Z39.19-2005协议认为受控词汇表的管理是一种“探索通过使用语言描述来识别和定位所需内容,来提高信息存储和检索系统、网页导航系统以及其他环境效率的手段。词汇控制的主要目的是实现内容对象描述的一致性并方便检索。”
词汇管理上经常问到的几个关键问题是:
• 该词汇支持哪些信息概念(数据属性)?
• 谁是这些词汇受众?他们用来支持什么流程以及承担什么角色?
• 为什么需要这些词汇?它是否会支持应用、内容管理、分析等?
• 谁负责确认和批准优选词汇和词汇术语?
• 不同的群体信息进行分类所使用的现有的词汇在哪里?它们是如何产生的?谁是负责它们的相关主题领域的专家?是否存在任何安全或隐私问题?
• 是否有现行的标准可以用来满足这些需要?是否关注有关外部标准与内部标准的使用?多久更新一次标准和每个更新的变化程度是什么?这些标准是否可以通过像导入/维护格式这样简单高效的方式来获取?
了解这些问题的答案将会更有效地促进数据整合。
词汇管理中最重要的活动是确定首选术语及其同义词(等价术语)的标准清单。为评估词汇管理中潜在的风险和复杂性,可以使用数据剖析帮助评t术语的价值和频率。
词汇管理需要数据治理,促使数据管理专员首先评估利益相关者的需要和建议变化的影响,然后合作,并做出正式批准决策。
2.8.2 定义“黄金”主数据值
“黄金”数据值是那些被认为最准确、最新,并与跨应用共享和一致使用的相关数据值。组织确定黄金值的手段包括通过分析确定数据质量,应用数据质量规则和匹配规则,以及在获取、建立和更新数据的应用系统中嵌入数据质量控制过程。
应用程序可以执行的数据质量规则,包括:
• 针对引用的数据和关键业务规则嵌入简单的编辑检查。
• 创建录入新记录前,通过应用程序自动的数据标准化和创建前搜索检查,例如地址信息,如果检查在系统中不存在就要创建新记录。
• 如果数据不满足准确度预期(不存在的地址),要向用户给出提示,同时提供某些方式来提交保存例外情况记录,以备将来审计之需。
建立数据质量衡量方法,以便设置数据质量的预期,评估数据质量的改善并帮助确定数据质量问题的根本原因。通过一系列数据剖析活动以及业务规则符合程度的验证来评估数据质量。
术语和缩写标准化是一种数据清洗活动,以确保某些术语和它们的缩写一致地出现在标准化的数据集中,如表8.5所示。数据清洗工具通常提供标准化的辞典,来将不同的词语和缩写转换成标准词汇或缩写。例如,St,Str,Street可以都映射到“St.”.
有时多个术语采用同一个缩写,如“Saint”也可能缩写为“St.”,从而使得非常难以自动将缩写逆向翻译为完成术语词汇。还有很多其他名称可能需要标准化,例如组织名称(U.,Univ,University等)和产品名称。所有数据消费者应可随时访问标准缩写的定义。
在整合环境(ETL、Web service等)中嵌入一组数据质量规则可以使任何数据源使用同一组校验和标准化的规则。
数据经过规范化和清洗之后,下一步就是应用匹配规则来尝试消除冗余数据。
2.9 定义和维护层次及关联关系
词汇及相关的参考数据集往往比首选术语及其同义词表更多。它们可能还包括术语间的层次关系。这些关系可以是“普遍到特殊的分类”(“是一种”关系)或“全部和部分组合”(“是……的一部分”的关系),也可能是一些值得去识别的其他非层次关系。
关联管理是主数据记录之间关系的维护和建立。包括所有权关联关系(如公司X是Y公司的附属公司,父子关系)或其他关联(如某人XYZ在X公司工作)。商务智能环境的层次管理有时也被称为维度层次管理。
2.10 计划和实施新数据源的整合
整合新参考数据源包括但不限于:
• 从不同群组接收和回应新数据采集请求。
• 使用数据清洗和数据剖析工具执行数据质量评估服务。
• 评估数据整合的复杂性和成本。
• 试点数据采集和匹配规则的影响。
• 确定数据质量负责人。
• 确定数据质量指标。
2.11 复制和分发参考数据与主数据
参考数据和主数据既可以直接从记录数据库中读取,也可以从记录数据库复制到其他进行事务处理的应用数据库,以及用于商务智能的数据仓库中。通过复制数据,应用程序可以更轻松地确保参照完整性。换句话说,该数据库可以确保只有有效的参考数据代码和主数据标识符才被用作其他表的外键值,提供相关数据的上下文背景。数据整合过程必须确保及时将参考数据和主数据复制和分发到这些应用的数据库中。
参考数据通常在应用程序中作为值列表出现,也经常在内容管理引擎中作为搜索标准出现。对在非结构化的文档中出现的参考数据经常通过建立索引来加快搜索。
2.12 管理参考数据和主数据的变更
在受管理的主数据环境中,需由特定的人来承担业务数据管理专员的角色。他们有权力来建立、更新和作废参考数据值;并且在有些环境下可在较小范围内完成主数据值的类似操作。业务数据管理专员和数据专家一起工作,以确保最高质量的参考数据和主数据。许多组织定义了更具体的角色和责任,并且一个人经常承担多个角色。
参考数据集变化比较缓慢。可以遵守下列基本的变更请求流程来规范地控制受控词汇及其参考数据集的变化:
(1)创建和接收变更请求。
(2)确定相关利益相关方并了解其利益。
(3)识别和评价建议变更可能造成的影响。
(4)决定接受或拒绝变更,或者向管理层或治理层给出决策建议。
(5)如果需要,评审和批准(或拒绝)建议。
(6)变更前与利益相关方就决策进行沟通。
(7)实施变更,更新数据。
(8)通知利益相关者变更已经实施。
内部或外部参考数据集的变更可小可大。例如,由于地缘政治空间的变化,国家代码表需进行轻微修订。当前苏联解体为许多独联体国家时,苏联这一词汇就会随着解体日期被废弃,同时许多新国家的条目加入代码表。另一方面,已经使用多年的ICD-9诊断代码正被一组包含大量不同新数据的ICD-10诊断代码集取代。像这种大的变更管理可以通过小的项目实施,确定利益相关者和对应用、整合.报表等应用系统的影响。
当然,已经被复制的参考数据涉及的变更也必须应用到复制的数据中。
有时,条目和代码会被废止。但是被废止的代码仍然会出现在交易数据的关联环境中,因此为了保证参照完整性,这些代码可能不会消失。数据仓库中发现的代码也代表着历史的真相。因此,代码表需要有有效日期和失效日期字段,并且应用程序逻辑在创建新的外键关系时必须参照当前的有效代码。
有时代码在生效之前就被添加到代码表中。例如,在12月就将在1月1日生效的代码添加到生产代码表中,但是在新年之前不会使用。
要把新代码与旧代码联系起来,数据仓库不仅要说明历史数据以前是如何汇总,还要描述按照新的代码结构如何进行汇总。
要审慎评估参考数据变化带来的影响。如果某词汇不再使用,要主动告知它的数据用户以减少由于该数据退出使用而造成的影响。关系的变化可能会影响现有的整合和数据聚合规则。参照用的元数据(业务定义、数据来源、业务数据管理专员分配等)的变更也应得到控制,而且在某些情况下根据其影响对审批进行评审。
三、综述
在组织中实施参考数据和主数据管理的指导原则、每一个参考数据和主数据管理活动相关角色的总结表,以及在参考数据和主数据管理中可能出现的组织和文化问题,总结如下。
3.1 指导原则
在组织中实施参考数据和主数据管理职能要遵循以下6条指导原则:
(1)共享的参考数据和主数据属于整个组织,而非特定应用系统或部门。
(2)参考数据和主数据管理是一个持续的数据质量改进计划,其目标不可能在一个单独项目中完成。
(3)业务数据管理专员是控制参考数据值的权威负责人。业务数据管理专员和数据专家共同协作以提高参考数据和主数据的质量。
(4)“黄金”数据值是指组织尽最大努力所确定的适合关联环境的、最准确,最新的相关数据值。新数据可能证明先前的假设是错误的。因此,需要审慎地应用匹配规则,并确保所做的任何改变是可逆的。
(5)只从记录数据库复制主数据值。
(6)变更管理流程:请求,沟通,在某些情况下批准后方可实施变更。
3.2 过程总结
参考数据和主数据管理职能的过程总结如表8.6所示,表中列举了参考数据和主数据管理每一项活动的交付物、负责角色、批准角色和贡献角色。此表也在附录A.9中体现。
3.3 组织和文化问题
Q1:什么是主数据管理的主要关注点?
有效的主数据管理解决方案需要持续对人的关注。不同利益相关者有不同的需求,不同的期望,不同的态度,以及对数据和提高数据质量重要性有不同假设。数据专业人员必须是极好的听众,记录与利益相关者沟通过程中获取的显性和隐性信息。数据专业人员也需要是杰出的谈判者,引导相关人员不断达成小的一致以就企业需求和相关问题逐步形成更深的共同理解。数据专业人员在这个过程中必须重视且不能弱化局部观点和需求。
Q2:为提高参考数据和主数据的质量是否必须变更过程和做法?
提高参考数据和主数据质量无疑需要改变工作流程和一些传统做法。每个组织都有其独特性,并且世上没有放之四海而皆准的方法。应根据当前的组织准备状况和未来的演化发展需要来确定解决方案的内容并进一步实施。
Q3:实施参考数据和主数据管理,面临的最具挑战性的工作是什么?
也许最具挑战性的文化变革是确定哪些人(业务数据管理专员、架构师、经理和高层管理人员)分别为哪些决策认责,以及哪些决策应由数据管理团队,项目指导委员会和数据治理委员会共同制定。数据治理涉及制定决策和支持决策的利益相关者。如果没有有效的数据治理和数据管理,主数据管理解决方案将仅仅是存在于IT组织内部的一个数据整合工具而已,并不能充分发挥其潜力和组织对其工作的期望。
文末说明:参考书籍来自《DAMA数据管理知识体系指南》