论数据湖及其应用
论数据湖及其应用
一、数据湖的简述
顾名思义,数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化 数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
在数据来源方面,数据既包括内部数据,也包括来自第三方的外部数据,既包括传统业务处理采集的业务数据,也包括手机终端、传感器、机器设备、网站网络、日志等技术产生的数据。
数据作为数据资产管理的对象,在近些年体现出规模海量、来源 多样、格式繁杂、采集实时等特征。在数据量方面,单一机构的数据 规模由以前的GB级上升到TB级,甚至PB级、EB级,数据增速快。在数据格式种类方面,除传统的结构化数据之外,文本数据、图像数据、语音数据、视频数据等半结构化数据或非结构化数据占比越来越大,种类日益丰富。
由于数据来源和数据格式的多样化,以及数据量的指数级增长,依靠“手工人力”的电子表格数据治理模式即将被“自动智能”的 “专业工具”取代,越来越多的数据管理员、业务分析师和数据领导者采用“平台工具”增强企业的数据管理能力,包括梳理元数据、管理主 数据,优化数据集成、提升数据质量等。具体来说,机器学习和人工智能通过自动提取元数据,将不同的数据进行关联并分析;通过配置和优化主数据,使主数据的管理更加便捷和准确;通过语义分析实现相同数据源的连接,简化数据集成流程;通过增强数据的分析、清理和识别,提升数据质量。同时,随着智能优化技术不断引入到数据管理活动中,数据间的多维关系将被自动化识别和可视化展现,帮助用户高效探索数据和分析数据,降低数据使用门槛,有助于非专业人士成为数据科学家,扩大数据的使用对象和应用范围。
数据资产管理的使用不仅仅局限于拥有海量数据或强大数据处理能力的机构,任何一个机构都可以成为数据资产化管理的实践者。选择一个小型且效果明显的项目实施数据资产管理,也可以成为逐步构建完整数据资产管理体系的良好开端。此外,数据资产的应用范围已经从传统的企业内部应用为主发展为支撑内部和服务外部并重,数据资产应用和服务范围的扩大成为企业战略发展的一部分,实现数据资产保值到增值的跨越。
二、简析河北省科技创新大数据平台
下面以河北省科技创新大数据平台为例,详细说明系统的概念体系架构设计。系统共分为五层,其中包括数据源层、数据存储层、数据处理层、数据共享层和应用层。如图所示。
数据源层,主要用来管理各类数据源,数据分散到统计库、资源库、需求库、专家库以及企业库等等。
数据处理层,主要包括元数据、数据标准、数据质量。元数据可进行元数据采集、血缘分析、影响分析、全链分析,元数据变更管理、绘制数据地图等;数据标准 可定义数据标准、标准落地、标准评估监控,及标准版本管理等;数据质量可管理质 量规则、数据模型,及数据质量方案。将这三项静态备份后再经过抽取、清晰、筛选、转换再进行入库这5个步骤,最后将处理完之后的数据进行集中存储至数据存储层。
数据存储层,将经过数据处理后的数据经过数据转换接口模块输送到事实数据、数据仓库、数据集市、维度数据进行存储。
数据共享层,主要包括管理决策支撑服务、科技资源信息管理服务、科技业务应用集成服务。管理决策支撑服务可进行专题定制、资讯推送、行情研究等;科技资源信息管理服务包括文献查询、信息跟踪、专利分析等;科技业务应用集成服务包括科技统计、资源调查、需求征集等功能。
应用层,该层主要通过平台便捷的子系统应用服务功能,从而改善决策支撑、缩减管理成本、降低数据风险、提升数据价值,并提供数据公开等。
三、数据管理
数据管理包括对数据各个维度的管理,大致包括以下几个方面:数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据价值管理、数据共享管理。
数据标准管理:
具体实施过程有:理解数据标准化需求;构建数据标准体系和规范;规划制定数据标准化的实施路线和方案;制定数据标准管理办法和实施流程要求;建设数据标准管理工具,推动数据标准的执行落地;评估数据标准化工作的开展情况。
数据标准管理的目标是通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现企业大数据平台数据的完整性、有效性、一致性、规范性,推动数据的共享开放,构建统一的数据资产地图,为数据资产管理活动提供参考依据。
数据模型管理:
定义和分析企业数据需求;定义标准化的业务用语、单词、域、编码等;设计标准化数据模型,遵循数据设计规范;制定数据模型管理办法和实施流程要求;建设数据模型管理工具,统一管控企业数据模型。
数据模型是数据资产管理的基础,一个完整、可扩展、稳定的数 据模型对于数据资产管理的成功起着重要的作用。通过数据模型管理 可以清楚地表达企业内部各种业务主体之间的数据相关性,使不同部 门的业务人员、应用开发人员和系统管理人员获得关于企业内部业务 数据的统一完整视图。
元数据管理:
理解企业元数据管理需求;开发和维护元数据标准;建设元数据管理工具;创建、采集、整合元数据;管理元数据存储库;分发和使用元数据;元数据分析(血缘分析、影响分析、数据地图等)。
元数据管理内容描述了数据在使用流程中的信息,通过血缘分析 可以实现关键信息的追踪和记录,影响分析帮助了解分析对象的下游 数据信息,快速掌握元数据变更可能造成的影响,有效评估变化该元 数据带来的风险,逐渐成为数据资产管理发展的关键驱动力。
主数据管理:
理解主数据的整合需求;识别主数据的来源;定义和维护数据整合架构;实施主数据解决方案;定义和维护数据匹配规则;根据业务规则和数据质量标准对收集到的主数据进行 加工清理;建立主数据创建、变更的流程审批机制;实现各个关联系统与主数据存储库数据同步;方便修改、监控、更新关联系统主数据变化。
主数据管理通过对主数据值进行控制,使得企业可以跨系统的使 用一致的和共享的主数据,提供来自权威数据源的协调一致的高质量 主数据,降低成本和复杂度,从而支撑跨部门、跨系统数据融合应用。
数据质量管理:
开发和提升数据质量意识;定义数据质量需求;剖析、分析和评估数据质量;定义数据质量测量指标;定义数据质量业务规则;测试和验证数据质量需求;确定与评估数据质量服务水平;持续测量和监控数据质量;管理数据质量问题;分析产生数据质量问题的根本原因;制定数据质量改善方案;清洗和纠正数据质量缺陷;设计并实施数据质量管理工具;监控数据质量管理操作程序和绩效。
通过开展数据质量管理工作,企业可以获得干净、结构清晰的数据,是企业开发大数据产品、提供对外数据服务、发挥大数据价值的 必要前提,也是企业开展数据资产管理的重要目标。
数据安全管理:
理解数据安全需求及监管要求;定义数据安全策略;定义数据安全标准;定义数据安全控制及措施;管理用户、密码和用户组成员;管理数据访问视图与权限;监控用户身份认证和访问行为;定义数据安全强度,划分信息等级;部署数据安全防控系统或工具;审计数据安全。
数据安全管理的目标是建立完善的体系化的安全策略措施,全方 位进行安全管控,通过多种手段确保数据资产在“存、管、用”等各个 环节中的安全,做到“事前可管、事中可控、事后可查”。
数据价值管理:
确定企业数据集成度水平;确定企业数据的应用场景;确定数据存储、计算和运维的成本预算;明确数据成本和收益的具体计量指标;计算数据在不同应用场景下的成本和收益;计算企业数据资产的总体成本和收益;制定数据成本优化方案和提升数据增值方案;审核、改进方案
数据价值(收益)主要从数据 资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。 数据价值(收益)管理从度量价值的维度出发,选择各维度下有效的 衡量指标,对针对数据连接度的活性评估、数据质量价值评估、数据稀缺性和时效性评估、数据应用场景经济性评估,并优化数据服务应 用的方式,最大可能性的提高数据的应用价值。
数据共享管理:
定义数据资产内部共享和运营流通监控指标;设计数据资产内部共享和运营流通管理方案;制定数据资产内部共享和运营流通管理办法和实施流 程要求;监控数据资产内部共享和运营实施;监督落实数据内部共享与外部流通等合规性管理要求;分析内部共享与运营流通指标,评价运营效果并改进
数据共享管理主要是指开展数据共享和交换,实现数据内外部价 值的一系列活动。数据共享管理包括数据内部共享(企业内部跨组织、 部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。数 据内部共享的关键步骤是打通企业内部各部门间的数据共享瓶颈,建 立统一规范的数据标准与数据共享制度,数据外部流通和对外开放可 以通过数据直接交易与提供数据分析信息的两种方式实现,将数据中 符合共享开放层级的信息作为应用商品,以合规安全的形式完成共享 交换或开放发布。