数据湖技术

一、数据湖技术与数据仓库的区别
数据湖是一个存储企业各种原始数据的大型仓库,支持对任意规模的结构化、半结构化和非结构化数据进行集中式存储,数据按照原有结构进行存储,无须进行结构化处理;数据湖中的数据可供存取、处理、分析及传输,支撑大数据处理、实时分析、机器学习、数据可视化等多种应用,最终支持企业的智能决策过程。数据仓库数据来自事务系统、运营数据库和业务线应用程序的关系数据,数据湖来自IoT设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据;数据仓库Schema设计在数据仓库实施之前(写入型Schema),数据湖写入在分析时(读取型Schema);数据湖的存储成本比数据仓库更低;数据仓库的数据质量是可以作为重要事实依据的高度监管数据,数据湖的数据是任何可以或无法进行监管的数据;数据仓库面向用户为业务分析师,数据湖面向用户是数据科学家、数据开发人员和业务分析师。
二、河北省科技创新大数据平台系统
河北省科技创新大数据平台系统架构图如下:

数据源层:数据源层是指河北省科技创新大数据平台所支持的元数据来源的方式。提供直连多种不同类型的数据源,包括:数据库类型、ETL 类型、文件类型、业务系统类型等。

数据采集层:利用采集层针对不同数据源提供丰富的适配器,实现端到端的自动化采集。具体包括: sqlserver、oracle、mysql、postgresql、petabase、ODI、Excel 等。同时支持适配器扩展,实现最大限度的自动化采集。
数据整合层:平台支持对数据进行数据抽取、数据清洗、数据转换、数据调度、运行监控等。
数据建模层:按照数据整合后的数据,按照不同的分类方式抽取不同的主题指标,再进行整合。
数据展示层:对数据建模后的结果进行展示。
实际应用:根据实际需求进行不同的实际应用开发。
系统管理:对系统的各种基本功能进行管理和操作。

(一)、数据整合
1.数据分析方式
1.1血缘分析
血缘分析是对指定元数据的起源及其推移位置的分析。它反应数据的来源与加工过
程,还描述了数据在不同过程中发生的情况。它可以帮助分析信息的使用方式并追踪用
于特定用途的关键信息位。

1.2影响分析
影响分析帮助用户迅速了解分析对象的下游数据信息,快速掌握元数据变更可能造
成的影响,以便更有效的评估变化该元数据带来的风险,从而帮助用户高效准确的对数
据资产进行清理、维护与使用。
1.3全链分析
全链分析是用来分析指定元数据前后与其有关系的所有元数据,不仅反应了元数据的来源与加工过程,也反应了元数据的使用情况,使用全链分析可清晰的了解该元数据的来龙去脉。
1.4关联度分析
关联度分析是从关系数量的角度对指定元数据进行分析,来体现该元数据在系统中依赖程度的高低,从一定的角度可以反映出该元数据的重要程度。
1.5属性差异分析
属性差异分析是用来比较同类型元数据之间属性值的差异,方便用户识别相似元数据之间的存在的微小差距。

2.数据标准建设
2.1配置灵活的数据标准属性

定义不同的数据标准可能存在需要录入不同的属性,为了满足不同项目对数据标准的设计,睿治数据治理平台提供了数据标准集管理,内置了业务属性、技术属性、管理属性、质量属性、主数据属性、生命周期属性等供用户选择使用,并支持自定义属性。

2.2方式丰富的数据标准录入
河北省科技创新大数据平台提供方便灵活的操作界面,根据用户选择合适的方式,快速创建数据标准,支持用户手动创建数据标准,同时支持拾取元数据生成数据标准,简化数据标准创建的步骤,同时支持修改、删除等操作。除了手动创建外,还支持通过导入的方式进行批量创建。通过导出标准集,让用户在线下对数据标准进行整理,将整理完成的数据标准导入到平台后,成为一条可映射、评估的数据标准。

2.3完备的数据标准审批

数据标准创建保存,并确认无误后,支持整集发起审批。审批支持通过、退回操作,
可采用邮件或任务提醒的方式通知参与审批的用户。同时支持审批列表的搜索,快速定
位数据标准。

2.4先进的数据标准落地映射

数据标准的设计目的是为了规范各业务系统的数据建设。平台支持对数据标准设置
落地映射,一条标准可根据实际业务需求进行多个映射,映射设置细化到实际业务系统
对应的元数据上,为后续的落地评估提供依据,设置好的落地映射支持修改、删除。

2.5智能精确的数据标准落地评估
为了方便用户检查业务系统是否按照数据标准进行建设,平台提供对数据标准进行
落地评估,并支持多种方式评估,包括单条数据标准、标准集进行评估。同时支持通过
数据标准和元数据双向评估标准落地情况。

2.6灵活有效的数据标准监控

数据标准监控对数据标准的 KPI 指标进行监控,包括已生成标准个数,失效个数,
提交个数,通过个数,退回个数等指标。另外,监控表可根据客户需求进行二次改造。

2.7细致自主的数据整改计划

河北省科技创新大数据平台数据质量管理模块参照工作流管理联盟(WfMC)标准设计,用户可自行定义整改流程,可实现问题分发给数据责任人,并可实时监督流程处理的状态。同时可根据流程的优先级、最终期限、转派次数等提供多角度查询功能。

posted @ 2021-06-17 17:43  大雪初晴丶  阅读(451)  评论(0编辑  收藏  举报