大数据整理——数据集成
数据集成
1.背景:
因业务需要,事业单位内部普遍构建了多个异构的信息系统,这些信息系统中管理的数据源彼此独立、相互封闭,形成“信息孤岛”无法形成快速有效的共享。
2.定义:
数据集成把一组自治、异构数据源中的数据进行逻辑或物理上的集中,并对外提供统一的访问接口,从而实现全面的数据共享。
3.举例:
杭州市政府工作报告中的“最多跑一次”改革,许多互联网应用(包括机票、酒店,餐饮,租房,商品比价等服务)都是把来自不同数据源的数据进行有效集成,对外提供统一的访问服务。
4.解决方案
数据源的异构性和自治性是数据集成系统面临的两个主要挑战。针对这两个挑战,数据集成通常采用如下两种解决方案。
4.1数据仓库
人们把一组自治数据源中的数据加载并存储到一个物理数据库(称为数据仓库)中,然后在数据仓库上对集成后的数据进行后续的操作和分析。如下图所示,基于数据仓库的数据集成系统架构
基于数据仓库的数据集成系统架构
数据仓库技术涉及的技术包括ETL、元数据管理和数据仓库本身涉及的技术。
ETL:定期地从各个数据源中抽取(extract)、转换(transform)、加载(load)数据到数据仓库中.
数据仓库:物理数据库,存放从数据源ETL的数据,以供数据应用层使用。
元数据管理:涉及对数据源的描述、对数据仓库中数据的描述、数据仓库中数据与数据源中数据之间的语义映射。
4.2虚拟集成系统
在虚拟集成系统中,数据保存在原来的数据源中,只在查询时才需要访问。如下图所示,基于中间模式的数据集成系统架构。
基于中间模式的数据集成系统架构
虚拟集成系统主要使用中间模式建立全局数据的逻辑视图,为异构数据源提供高层次的数据访问服务。
数据库:提供数据,独立性强
封装器: 负责把上层用户的查询转发到数据源,并把数据源返回的结果转发给上层的应用
中间模式:向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口。
元数据:维护数据源的基本信息以及中间模式到数据源之间的语义映射等。
4.3 技术细节
无论是基于数据仓库还是基于中间模式的数据集成系统,都需要完成实体与关联抽取、模式匹配(schema matching)、实体对齐(record linkage或entity resolution)和实体融合(data fusion)这4个步骤。
4.3.1 实体与关联抽取
面向结构化数据的实体与关联抽取技术比较直观,面向非结构化数据的实体与关联抽取****可参考第4.1节。**
4.3.2 模式匹配
模式匹配主要用于发现并映射两个或多个异构数据源之间的属性对应关系,在大规模数据背景下尤为重要。目前,基于朴素贝叶斯、stacking等机器学习算法的模式匹配得到了广泛的研究,并在某些特定领域得到了良好的应用。基于模式匹配,实体对齐的目标是根据匹配属性的记录特征,将数据源中指代同一实体的记录连接起来。
4.3.3 实体对齐
实体对齐主要分为3个步骤:获取候选集、成对匹配、聚簇处理。广义地说,实体对齐的方法可以划分为无监督学习和有监督学习。随着人工智能技术的发展,基于决策树、Logistic回归、支持向量机(support vector machine,SVM)的机器学习方法以及基于词向量(word embedding)的深度学习方法被应用于实体对齐,以提高算法的性能。
4.4.4 实体融合
实体对齐可以把一组数据源中同一实体的不同记录连接起来,由于数据质量问题,这些记录在描述同一实体时可能存在数据冲突,例如同一个人的住址在不同数据源之间的描述可能是不一样的。
因此,在数据集成的最终环节中,实体融合旨在消除不同数据源之间同一个实体属性值的冲突,将不同的数据信息进行综合,从而提取出统一、丰富、高精度的数据。实体融合的主要方法包括基于规则的无监督学习、结合标注数据的半监督学习等。虽然基于标注数据的半监督学习在精度、召回率等方面均获得了令人满意的效果,但是其最大的挑战在于带标签训练数据的获取往往需要耗费较大的人力和物力。如何利用主动学习获取训练数据以降低研究代价,是当前学术界和工业界研究的热点话题。