读《美团配送数据治理实践》小结
读《美团配送数据治理实践》小结
大数据时代,数据已经成为企业十分重要的资产
如果在大数据“拼图”中遗忘了数据治理,再多的技术投入也是徒劳
1. 对数据治理的理解 What
消除数据不一致性,提升数据质量,梳理模型,保障数据安全,让数据可以应用与决策中
2. 数据治理的目标 What
从企业讲,将数据作为企业宝贵资产应用于业务,管理,战略决策中发挥价值
从个人讲,是对“存量数据治理”和“增量数据管理”的过程,对存量数据实现由乱到治,建章立制,对增量数据严格把控。
全量数据:所有同类型数据的集合。一般为客户信息,产品列表等。
存量数据:将全量数据按不同时间copy并保存起来
增量数据:与时间挂钩的单位时间内不断新增记录的数据、
一说,全量≈存量+增量
3. 何时进行数据治理 When
数据治理是一个长期的过程,贯彻数据建设的各个阶段,只是在不同阶段根据业务和技术特点其覆盖的范围和关注点有所不同。
-
在数仓雏形阶段,(美团配送刚成立时)
特点:扩张快、业务变化多、数据需求多
数据治理主要进行"技术规范"和“治统口径”
-
数仓迭代阶段
改变“烟囱式”模型,消除(一定的,非必要)的冗余,提升数据一致性,在产研层开展架构治理(明确各层,各主题的职责和边界,构建一支的核心模型)、资源治理(成本)、安全治理(安全)
-
能力沉淀阶段
基于沉淀形成标准,从业务到产研,自上而下推动数据治理,建立相应组织、流程、制度来保证标准全面落地,通过建立数据治理平台来复制更高标准地执行标准
4. 如何开展数据治理(提纲)How
4.1 定标准->提高数据质量
- 业务标准
- 技术标准
- 安全标准
- 资源管理标准
4.2 重落实、保实施
两个阶段
- 阶段1:存量数据“由乱到治”,完成相应组织和工具的建议
- 阶段2:增量数据“行不逾矩”
三个方面
- 架构治理
- 模型灵活性(逻辑划分,灵活组合主外键)
- 封装包属性(对外),封装运单属性(对内)
- 桥接表达适配层级变化
- 分时段,分距离,作为主键,精细化运营
- 数据一致性:业务、技术
- 模型灵活性(逻辑划分,灵活组合主外键)
- 元数据治理
- 建立组织、流程、工具,推动标准落地,实现规范定义
- 基于现状与推演进行抽象,制定清晰的主体,过程,方向。构建完备的技术元数据对物理模型进行准确描述。打通元数据与业务元数据之间的关系
- 为数据的使用提效-->找数,理解,评估,取数,可视化
- else,元数据采集,元模型构建,元数据服务,元数据应用
- 安全治理
- 敏感数据安全治理
- 共享换届安全治理
5. 如何开展数据治理 How
从大方面看,数据治理包括,对存量数据的“由乱到治”,对增量数据的“行不逾矩”
5.1 定标准->提高数据质量
-
业务标准:管理标准和运营标准
业务团队负责指标定义。产研商务负责给定义标准和辅助工具,辅助业务定义指标,达成指标认识的一致性。指标管理委员会,负责指标的管理与运营,保障指标从创建、审核、上线以及到消费的运营。
-
技术标准
针对数据RD提出的建模标准和数据生产规范,明确数仓分层,维度建模。
应用层:报表性数据,服务型数据
中间层:“角色”画像建模,特征模型,多位汇总(CUBE)
基础事实层:事务事实,同期事实,积累事实
操作层:origindb
拓展:《美团DB数据同步到数据仓库的架构与时间》中,Binlog实时采集和离线处理binlog。A类中原始log数据使用raid(磁盘阵列)存储,其他用hadoop中的hdfs
-
安全标准
分级分类,角色授权-->数据拿不走
隐私管理标准-->看不懂
审计标准-->走不脱
-
资源管理标准
业务团队只需要将租户和项目组职能划分清楚,根据不同职能归属资产,对每个租户和项目组都分配确定的负责人,对运营负责。
5.2 重落实、保实施
三个方面
-
架构治理
- 模型灵活性
-
(逻辑划分,灵活组合主外键)
-
- 数据一致性
- 业务
- 技术
- 模型灵活性
-
元数据治理
-
建立组织、流程、工具,推动标准落地,实现规范定义
-
基于现状与推演进行抽样,指定清晰的主题,过程,方向
构建完备的技术元数据对物理模型进行准确描述
打通元数据与业务元数据之间的关系
-
为数据的使用提效
- 找数、理解、评估、取数、可视化
-
else
- 元数据采集
- 元模型构建
- 元数据服务
- 元数据与应用
-
-
安全治理
- 敏感数据安全治理
- 共享环节安全治理
6. 数据应用
Wherehows+QuickSight