离线数仓hive-互联网大厂的数字化转型设计方案
互联网大厂和传统中小微企业的数据方案不同之处,就是互联网是资金雄厚的企业,不差钱呀;而传统企业需要做到量力而行、适合自己就是最好的。目前国内,无论是我们之前的华为、还是现在的阿里、腾讯、抖音等头部互联网大厂,在离线数仓这块,都是基于大数据的组件 hive 去设计的。一般 在hive里去设计ods(贴源层)、dwd(宽表层)、dmd(轻度汇合层)、ads(出指标层)等等。这里的技术方案 MySQL + ETL(调度工具 sqoop\datax)+ hive , 如果要求走API方式的话,可以走druid、kylin等 ,提供前端API端口,进行BI系统数据渲染;也可以走 mysql + clickhouse 走即席查询(这块有点类似实时数仓的需求了,后面章节再谈谈实时数仓)。
传统企业的离线数仓和互联网离线数仓不仅仅是在技术方案设计上差别比较大,传统的只需要满足公司需求即可,不会做过多的其他生态建设,但是互联网工公司的离线数仓,通常要求会比较高,不仅仅是给领导汇报、展示大屏等基本数据需求。通过我们会有以下几个方面的考虑和需求:
一般的入手思路是:
1:业务过程调研
设计到的业务流程有哪些、上下游部门组织架构、干系人角色职责,构建数据总线矩阵、维度总线矩阵;
2:数据分类
业务数据管理、埋点数据管理、日志数据管理、测试数据管理、主数据梳理
3:数据主题域
主题域、主题定义、维度划分、边界定义
4:数据建设规范
设计规范、开发规范、运营管理规范、使用流程规范、上下游协助规范、发布、测试规范
5:数据模型设计
维度表设计、事实表设计、常见设计方案和模型、模型的迭代开发
6:元数据管理
资产目录、技术元数据、业务元数据、管理元数据、元数据采集,存储、查询、使用、口径库设计
7:数据质量管理
完整性、一致性、准确性、及时性、有效性监控,实施、异常响应机制,分级分类、排查追踪
8:数据共享和安全
数据安全、数据分类、分级,存储加密,申请审批流程,敏感数据解密使用,数据安全审计
9:数据建设
ETL工具、调度系统、质量监控系统、元数据管理系统、数据可视化、对外提供API服务
10:效率和成本
存储、计算成本、 服务效率、性能、数据生命周期管理,数据归档
以上的这些数仓建设思路,不仅仅是离线数仓适合、实时数仓也是这么要求去干的。各家大厂的设计思路都万变不离其宗。
欢迎 关注本人的微信公众号 : 数据赶考人