【华为云技术分享】华为云多元计算+AI 打造企业级智能数据湖
欣顿.郝尔泼于《迫在眉睫的南方危机》中写道“还没有多少人能够正确地认识到数据在自由这项事业中正在扮演的重要角色。它们正在创造奇迹……”当时,欣顿.郝尔泼身处黑人白人不平等的奴隶制社会,他用数据的方式验证南北经济的差异去证明黑人的社会价值,从而加速结束奴隶制的存在。
如今,我们已然深知数据在生活生产中扮演着重要角色,那他的本质是什么,如何利用好数据为我们创造价值?认识数据,了解多元时代数据的丰富多态和其解决之道至关重要。
什么是数据
我们注意到:在做数据分析的时候单用数字去描述是远远不够的,比如过年爆发的疫情现状如何。我单记录“24”、“0”是不够的,我需要完整的记录【2月23日“24”个省确诊病例“0”新增】,如果配上图文、视频等信息可以更全面了解疫情现状。
我们这里讲的数据其实是涵盖数据及信息两者的统称。数据也好,信息也罢都是客观存在的,把这些客观存在的数据、信息介于人们接受数据的方式不同,用不同的技术手段来存储、管理计算等等,从而衍生出多模态数据。
对于多模态数据的计算处理,华为云有一套端到端的解决方案,名为智能数据湖。
智能数据湖
实际上大家可能知道,数据湖这个概念其实已经出来有几年了,传统的数据湖更多指的是数据存储和管理,把所有数据放在一起统一存储。华为云智能数据湖从解决方案层面做了进一步延伸,如材料图中所示,智能数据湖分为三层:统一数据存储层,多元计算层,数据运营层。
三大特点:
1、 存算分离
大家如果搭建过大数据集群的话,可能会有比较深刻的体会,使用开源Hadoop系统做存算一体部署,基于服务器构建集群往往会带来存储资源和计算资源利用不均的问题,如存储上PB级数据,分析查询可能只需要十几个CPU;业务扩容时,因为是按照服务器个数为单元扩,实际上计算资源是绑定一起扩容的,这种情况对于规模越大,数据量增长越快,业务种类越多的企业,会更加显著;从我们之前支撑过的大型互联网APP企业的经验来看,计算资源会存在40%~50%的浪费。
而存算分离则很好的解决了这个问题,通过计算和存储解耦,利用云架构弹性的优势,存储和计算单独按需扩缩容,从而使资源利用率达到最大化。
2.1、多元计算
全栈支持鲲鹏,从方案图中可以看到,包括一站式大数据平台MRS服务,批流计算+交互式分析的多模计算DLI服务,以及增强的企业级数据仓库服务。
DLI是一个serverless服务,它对于用户来说就像一个黑盒,用户不用关心服务内部的资源,以及软件怎么部署,只需要使用服务提供的对外接口直接进行业务实现,无须运维,使用起来非常方便。
MRS是一个集群类型的服务,包含Hadoop,spark,hive等常见服务,可以理解为大数据全家桶;MRS服务的形态则和DLI刚好相反,用户感知硬件资源,需要先选择资源类型,然后部署集群。一般情况下客户已有大数据平台,做云上迁移;或者客户有自己的大数据团队,需要登录集群修改配置做调优,可以选用MRS服务;
数据仓库DWS服务,这个服务的内核基于华为自研的GaussDB,同时我们在云服务架构上也做了优化,包括分布式弹性能力,可靠性能力,性能也达到业界领先水平。
2.2、+AI的助力
第一是数据与AI算法/模型协同,用来支持非结构化处理;在技术上我们是在大数据系统中内置了AI的轻量推理引擎,AI算法模型作为算子,在大数据处理过程中直接调度使用,如图像识别模型作为一个UDF,在大数据处理过程中直接使用SQL调用。
另一个方向则是用AI来做数据引擎的自调优;通过收集业务运行时的系统各方面过程数据,采用AI建模预测,推荐更优配置,以及更优的数据组织策略,这就像大数据系统内置了一个小机器人,它不停的在对系统做维修优化,从而让引擎使用起来具备更优越的性能
3、完整的一套数据运营工具平台
这便是图中最上层的DAYU服务,他围绕数据处理过程提供了端到端一站式数据运营能力,包括从数据集成,规范设计,开发,质量管理,到形成数据资产,以及对外开放服务;DAYU给数据管理和分析工作者带来了便利,通过全流程界面化操作,极大的降低了数据管理和分析的门槛,同时也提供API方式供伙伴集成,构建自己的数据系统。