银行大数据新玩法,构建“一湖两库”金融数据湖
摘要:烟囱式的数据平台建设导致“数据孤岛”,“一湖两平台”的金融数据湖让大数据发挥最大的业务价值。
大数据技术经过近几年的快速发展,在企业数据中心的基础设施上已不鲜见,尤其是金融行业,大数据技术应用一直走在其它行业前面,它们在以数据湖、融合数仓、湖内数仓(Data LakeHouse)等一些典型的技术场景中,逐步将大数据生态技术应用到金融企业的风险控制、运营管理、信贷查询、信用卡征信和财务分析等领域。
另一方面,大数据云服务化已经提了很多年,但是目前多数大数据平台的服务能力依旧很弱,很多企业的大数据平台仅承担跑批业务,除了IT岗位的用户之外,其它的业务岗位根本感受不到大数据的存在,更谈不上通过从大数据技术设施得到业务的收益。
其本质原因是大数据基础平台软件并不具备云服务化的基础能力。
大数据云化,提升数据投资回报率
大数据的各个组件成为一种服务化的形态,主要是将一个大数据中心的服务能力进行虚拟化,多个用户群体可共用服务能力,单个用户群体有类似独占的使用体验,而且随着用户群体规模和类别的增加,资源可以轻量化弹性伸缩,自动发放与回收,底层基础架构的耦合比较轻,甚至解耦。
在这种架构下,用户的需求,可以更快地被响应和实现。
因为云原生技术可以有效地缩短应用交付的周期,让需求更快落地,最终为用户服务,动态实现价值。
所以,一个本地建设的大数据中心往往需要大量的资金、人力的投入,为单个用户群体建立专用中心是不现实的,因此大数据服务的云化在这些场景很有价值,也可能是必须的选择。
在当前的云计算产业商业模式下,未来金融企业的大数据基础设施向公有云或者混合云部署模式转变成为必然,随之而来的是用户对云服务提供商的合规和信息安全的要求会进一步提高。
当大数据被赋予云原生的含义后,大数据的真正业务价值才会逐步绽放,大数据固定资产投资才能真正变现,从而让更多的领域从大数据中获益,全面提升大数据的投资回报率。
某行大数据服务云BDSP案例
烟囱式的数据平台,导致“数据孤岛”
全行各业务线数据量不断增加,业务侧对数据需求非常迫切,旧有的模式是业务提需求给开发中心,开发中心安排开发资源管道,大量的需求积压,甚至由于开发周期太长导致需求已经没有了实际意义。
另外行内烟囱式的数据平台建设导致“数据孤岛”,给开发人员带来大量的数据拉取和整合的工作量。耗费了大量的人力物力以及时间,还导致了业务侧的投诉和抱怨,工作效率严重滞后。从投资成本来看,业务倒逼IT的烟囱式的数据平台的投资建设,耗费了庞大资金和人力投入,协同效能的提升问题凸显。
数据按照业务归入“一湖两库”
通过引入华为云EI智能数据湖FusionInsight提供的MRS+DWS大数据云服务化产品,将行内的基础数据需求按照业务划分为数据湖、数据仓库和集团信息库,即“一湖两库”为核心,通过不同的数据处理手段将数据持久化;通过华为MRS和DWS产品提供的组件将主流的数据处理引擎集成在大数据服务云平台中;再将这些数据服务以租户渠道方式作为接口开放,例如“数据集市”、“损益预查询”,最后用户通过自助或者固定的应用服务渠道来获得大数据服务,如“分析师工作台”。
平台全部尝试采用全国产化技术,基于ARM技术服务器和华为MRS产品构建了1000+节点的大数据云化服务集群。
在行内的大数据服务云场景中,真正提供服务核心的是一个全行共用的大数据基础平台(MRS+DWS),使用服务的是多个不同的用户群体,各用户群体以租户形式互相隔离(租户渠道层),单个租户在限定的范围内使用大数据的服务。
如上图,大数据服务云平台提供用户自服务的渠道,例如风险计量或者分析师工作台。用户自行管理租户资源池内可用的资源、数据等内容。在使用过程中平台提供用户的验证、访问的管控、审计,对资源使用的计费等衍生问题的处理。
最后
将大数据基础平台在云化基础设施上的部署,使得大数据系统降低了建设、部署、运维等环节的投入,体现在在多个租户间平摊大数据中心的建设、运维成本,提高大数据中心的使用效率。
而且基于存算分离的架构部署,有效的节约了存储成本,真正做到资源的“按需分配”。
对于单租户,省去了维护大数据系统带来的庞大资金和人力投入,使得大数据系统降低了建设、部署、运维等环节的使用门槛,助力普通员工轻松使用大数据应用。
华为云828企业上云节将带来更低的云上部署成本,你还在等什么?