统一数据平台——建设背景
所谓建设背景,就是要弄明白我们为什么要建设这个统一数据平台。
1. 简介
统一数据平台,我给它起了个英文全称叫 Unified Data Platform,简称 UDP。
采用Hadoop生态软件(如:HDFS、HBase、Hive、Kafka、Spark stream等)、传统关系型数据库、MPP数据库相结合的大数据混搭技术架构,采集加工传统的结构化经营数据、半结构化的日志数据以及非结构化的上网行为数据,建设大数据仓库,实现一点加工,统一服务。
2. 背景
平台建设背景主要分为内因和外因。
内因主要表现在数据的采集、存储、管理、使用等环节发生了新的形式变化,这些变化大致来源于数据量增加、数据多样、使用个性化等方面,需要采取新的手段来改善当前局面;外因主要是当前的技术趋势,社会普遍开始引入大数据进入企业,这也说明各个企业的数据也在发生着翻天盖地的变化,也在谋求新的技术手段来解决各种数据问题以服务公司的运营,几大巨头公司(Google、Facebook、Amazon、Apache等)作为技术先驱正引领着这一潮流。
2.1 数据管理十分混乱
截止目前,原底层数据仓库已服务企业八年半,于09年初开始建设投入使用。
数据开发人员更替快,数据管理没有制定执行严格的标准,不同的人使用不同的模型生产同样的数据;后一半时间几乎完全的以需求为导向,自上而下建设底层数据模型,不遵循科学的数据仓库建设方法,使得仓库数据模型更加混乱,过度冗余,加工繁杂。
2.2 数据体量急剧增长
从09年到18年,互联网发生了翻天覆地的变化,数据呈几何级数增长,我们进入了大数据时代。
电信行业流量业务需求呈爆发式增长,用户高速4G网络数据使用越来越多,流量价格越来越低,运营商急需相应的大数据技术来采集分析用户的消费行为数据,了解用户行为特征,挖掘潜在业务增长点,在激烈的4G时代争夺用户。
2.3 数据需求呈多样化
从我来到现在的公司,纵观已经实施的数据类需求,从基本的多维报表、专题模块这类固定式数据展现的需求到根据用户需求,贴身为其提供统计个性化数据服务,再到用户自行选择维度,横纵向挖掘式地探索式分析数据,用户的需求呈现多样化复杂化,个人定制需求越来越丰富。
固定化的报表明显无法再满足其撰写分析报告的数据需求,数据中心直接提供给用户用来解决自身数据需求的模型的颗粒度明显细化,用户转而希望自己可以在同一时间类自行分析不同维度不同层次的数据集。
要想及时满足用户这样的数据需求,底层数据的加工效率、数据的统计展现效率是两个非常重要的环节。
2.4 数据资产反复提出
数据资产管理一般地认为有十大数据管理职能:数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理、数据质量管理。
2.5 数据服务要求更高
用户使用的系统呈烟囱式分布,原数据仓库(Data Warehouse)通过ETL把生产系统的数据取过来后,分发给其他系统,每个系统都保留了大量的原始数据,根据自己的业务需求进行数据沉淀和汇总。
这种模式造成数据资源的重复建设和硬件资源的浪费,同时由于各个系统的数据汇总口径有偏差,同样的指标数据在多个系统结果不完全一致,整个数据中心对外的数据结果差异导致数据的说服力不够,容易引起业务部门对数据质量的不信任。
3.总结
统一数据平台计划采集各个生产系统的数据,建设大数据仓库,提供大数据服务,最终实现所有数据的一点采集、一点加工、一点存储、一点管控、一点服务。
注:以上文字仅是从个人业务实践的角度来思考,文字表述未细雕琢,立意未高屋建瓴,较为浅陋。