生产场景数据湖平台建设实践

【本文系转载,非本人原创,仅供参考学习】

原文链接: https://www.sohu.com/a/231709205_223866

数据湖平台简介

数据湖平台是一套混合架构,以传统Oracle与华为FusionInsight HD&LibrA为主,依托统一融合的数据平台,全流程拉通公司产品的研发制造、供应储存、安装交付多环节数据,增强数据交互,使能数字孪生,自动化、智能化提升公司运作效率。
该平台围绕数据分如下三大逻辑模块:

系统架构如下:

数据建设准则

数据接入原则

  1. 以应用驱动为主,优先建设高价值数字孪生项目;
  2. 入湖数据必须有数据管理部认证,发布对应数据资产标准,匹配对应数据责任人;
  3. 数据建模原则以原始数据、清洗整合数据、三范式结构、服务化宽表逐级向上规范;
  4. 整体平台需符合高可用、平行扩容原则,符合业务3-5年的数据规划。

数据湖指导思想

大数据只有开放生态才可能最大化发挥价值,订单不拉通生产制造、交付验收,就难以预估产能周期、用户期望等,我们必须数据开放,才能提供更优质的数据服务。

大数据膨胀迅猛特别是IOT应用的普及,提升数据精度才能发现更多生产问题,AI算法也需要大数据训练模型,我们需要拥抱开源,持续引入工业界优秀平台提升自己。

典型数据应用场景

下图按应用场景,对数据流程、处理平台进行的标注:

  1. (绿色)结构化数据通过批处理、虚拟镜像到Hive数据,再通过Kylin预处理将数据储存在Cube中,封装成RESTAPI服务,提供高并发亚秒级查询服务,监测物料质量情况;
  2. (红色)IoT数据,通过sensor采集上报到MQS,走storm实时分拣到HBase,通过算法模型加工后进行ICT物料预警监测;
  3. (黄色)条码数据通过ETLloader到IQ列式数据湖,经过清洗加工后,提供千亿规模条码扫描操作。

IoT数据应用 (数据场景:Sensor数据)

MQS(UMP):负责缓存消息数据,消息队列服务(Message Queue Service,简称MQS)是针对华为IT场景打造的专业消息中间件,是企业级互联网架构的核心产品,基于高可用分布式集群技术,搭建了包括发布订阅、消息轨迹、资源统计、监控报警等一套完整的消息云服务。支持全球路由、隔离网络、云间集成三大业务场景。

Storm:hadoop体系流处理平台,负责将MQS数据进行处理分发到Hive、Hbase、Oracle等数据平台储存。

IT日志数据

获取IT应用如办公内web应用、APP应用等日志数据,通过SDK嵌入实现数据的实时采集,上报到kafka(类同于MQS的消息中间件),然后通过批处理方式进行日志分析、访问性能等统计,或者走Flink进行实时监测计算。

SD质检图片数据(数据场景:非结构化数据)

通过web前台、数据API服务,进行图片数据的上传及查询,图片需要有唯一ID作为标示,确保可检索。海量图片数据以ID为rowkey,储存于Hbase平台,提供快速储存及查询能力。数据资产上有以下方面的构建:

  1. 统一索引描述非结构数据,方便数据检索分析。
  2. 增加维护及更新时间作为对象描述字段(图片类型、像素大小、尺寸规格)。非对象方式及数字化属性编目(全文文本、图像、声音、影视、超媒体等信息),自定义元数据。
  3. 不同类型的数据可以形成了关联并处理非结构化数据。

数据存储方案

目前数据湖储存介质以FusionInsight HD&LibrA和Oracle两套平台为主,总体接入原则:

  1. 高价值及高热度数据,以FusionInsight HD&LibrA或Oracle为主,如FIN数据;
  2. 创新性、非结构化数据以FusionInsight HD平台为主,如图片、视频、地图等数据;
  3. 贴源建设,如源系统为关系型数据库接入Oracle,源系统为Hadoop则对接FusionInsight HD;
  4. 领域级优先建设原则,如IT、制造、研发代码;

我们按照数据类型、数据规范、适用场景建议如下:

数据设计规范

入湖数据,原则上作为生产环境的全量镜像方式储存,部分数据甚至以数据湖作为第一可信源发布,出于以下考虑:

  1. 数据湖体量大,能冷热备生产数据,可将保持较长时间生产环境数据;
  2. OLAP扫描数据量大,多数场景会全量扫描数据,这对OLTP为主的作业系统是不合适,所以我们需要集中在数据湖中进行数据分析工作,和原系统解耦。

数据入湖流程

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等,所以我们按数据类型分为如下两大流程:

结构化数据

结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进存储和管理。

非结构化数据

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。

建模必要要求:

统一索引描述非结构数据,方便数据检索分析,可增加维护人员及更新时间作为对象描述字段。

非结构化储存,是对对象方式及数字化属性编目,自定义元数据,关联大量非结构化异构数据采用统一的文件元数据对数据进行建模,每一个元数据可以作为该数据的一个维度,索引引擎会对数据的每个元数据属性进行多维索引,这样不同类型的数据就可以形成了关联并处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

储存平台:

HBase、mongoDB、HDFS。

增量方式:

支持push、pull两种策略,如选择HBase储存需考虑储存的版本个数方便业务查看历史版本。

如push方式,需业务先将数据以消息方式推送MQS(消息中间件),数据湖负责分拣入湖;

如pull方式,由数据湖主动部署agent上报、或者jdbc等方式去get业务数据,实现组键以flume、爬虫或者数据库驱动为主。

声明:如有侵权,请联系原作者删除。

posted @ 2021-01-12 10:32  Leo-Wong  阅读(642)  评论(0编辑  收藏  举报