数据中台感悟
20220922 笔记:
1 业务中台 是抽象业务流程的共性形成通用业务服务能力, (这种技术支持比如微服务,更小粒度的DDD,部门比如基础数据组,运单组,订单组)
数据中台 是抽象数据能力的共性形成通用数据服务能力。 (比如源业务数据通过资产化服务,形成用户画像,大数据风控,可以用在多个领域,比如金融领域)
同一个服务,在应用层展示的内容可能不一致,但是底层的数据体系是一致的。
数据中台和业务中台是相辅相成的。随着数据和业务紧密结合,有可能统成为企业中台。
2 数据中台:将数据服务化之后提供业务系统,将数据能力渗透到各个业务环节,不仅是决策分析。(所以包括数据仓库)
把业务系统的生产资料数据转换为数据生产力的过程
数据服务是数据中台重要价值之一
数据仓库:决策和分析。
数据中台: 技术体系: hadoop spark flink greenplum es redis phoenix
数据体系: 建模方式 DELTA -> SOR -> SMY -> DW
服务体系: 比如用户画像服务,信用评估等级服务,风险预警服务
运营体系:平台流程规范 ,平台资源监管优化,数据质量监督
20220925 笔记:
企业数据资产,消除物理孤岛,通过mapping 能力将数据进行融合,消除逻辑孤岛,构建企业统一的数据资产,并进行数据治理,使资产符合生产需求,通过数据服务化的能力快速服务业务。同时,过程中针对数据资产的使用和内容进行运营优化,使得业务数据资产的越用越有价值,真正成为企业的核心资产,这种能力的建设定义为数据中台。
Canal:
伪装Mysql Slave 交互协议。和 client 之间是1:1关系。
Sqoop:
底层MR
DataX:
各种异构数据源交换,离线数据交换工具
Kettle:
图形化数据交换工具。并发,集群。
一 离线:
全量同步: 库全量同步
表全量同步
增量策略:
新增:追加
覆盖:根据KEY结合业务 决定
更新:根据KEY结合业务 决定
二 实时
Oracle -> Kafka -> Hive
数据订阅服务(数据订阅 和读取 ,任务启停控制等功能) 数据消费服务(数据解析,数据转换,数据写入)
NOSQL 数据库: 键值数据库,列族数据库,文档数据库,图形数据库。
20220929 笔记:
贴源层(Delta): 源系统的数据,一般增加 装载时间,加载时间, 系统来源 附近三个字段 (不是ODS层,ODS 系统数据交换,实时性,报表功能(当时还没有出现实时计算的时代提出的))
SOURCE_SYSTEM VARCHAR2(50 BYTE),
ETL_DATE DATE DEFAULT SYSDATE,
TS TIMESTAMP(6) DEFAULT CURRENT_TIMESTAMP
对比:
结构化数据:贴源层字段名称保持和业务系统一致,字段类型尽量保持一致或兼容。
数据量大的表采用增量同步方式
半结构化数据: 对于日志文件等数据,存储原始数据到大字段中,后面再解析到结构化数据表中。
非结构化数据:图片,音频,视频,一般保留在文件系统中,分析价值小,所以不保存原始文件,只保留原始数据文件描述,比如地址,名称,类型等。
统一数仓层建设( 维度建模 kimball,隐含就是 星型模型 ,涉及的模型思想就是 rolap 或者 molap ,比如 cognos,kylin )
1 规划业务板块: (就是数仓的系统来源)
2 构建统一的维度和事实。 (也就是 分类 (CL) 转换映射 ) 建议和业务人员沟通梳理整体的业务流程。
数据域: 对应一个宏观分析领域,比如采购域,供应链域,HR域。
个人理解类似IBM FSDM 成熟业务模型 ,比如 9大Area。
如果没有成熟业务模型,此处数据域划过程如下:
2.1 数据调研
业务调研: 梳理业务流程,业务边界,专业术语。
数据调研: 数据目录信息,梳理数据流与业务过程关联关系。
2.2 业务分类
业务过程提取:熟悉业务过程
业务过程拆分:类似需要知道OLTP的 DDD
业务过程分类:相似的业务归为一类
2.3 数据域定义
业务分类确认:确认分类范围中出现无关业务
数据域定义:根据业务分类总结出划分业务范围标准定
数据域命名: 类似 9大域中 的 IP ,AR 等
2.4 总线矩阵构建
关系梳理:明确业务过程有哪些维度
矩阵构建:就是需要了解每个域下面的业务过程(重点度量)和维度
事物事实表: 类似银联前置流水表 (可以用时间增量获取,当时分析某家银行银联前置流水做了全表比对,也可以,当时数据量比较小,这种方案也好,现在对于大一些的银行来说,可以用时间增量获取更好)
周期快照事实表: 有规律,可预测的时间间隔产生快照记录事实,一般记录后,数据不会变更,所以增量更新。
累计快照事实表:覆盖一个事物从开始到结束所有的关键事件,覆盖业务的整个生命周期,通常有多个日期字段来记录关键事件时间点。
类似 一个记录 有 下单 支付 发货 收货等信息。
2.4.1 确定业务过程
2.4.2 定义粒度(类别主键)
2.4.3 确定维度和层级, 比如时间,地点,科目,客户,员工
2.4.4 确定事实(事实表度量)
2.4.5 适当少量冗余维度属性(大数据架构,属性变化的可能性非常小,并且属性不是特别重要)
大量的数据,减少表关联,提升效率。 如果用kylin ,不需要这么操作。
同时有SCD 问题,也不能这么操作,无法实现模型的维度渐进变化。
标签数据:面向对象建模,把一个对象各种标识打通归一,把跨业务板块,数据域的对象数据在同一个粒度基础上组织起来到对象上。
属性标签:对象本身特性
统计标签:原子指标+计算方法
算法标签:通过规律特征计算
对象: 客户,产品,账户
对象标识: ID值,比如手机号
标签:利用原始数据,通过一定的加工逻辑产出,能够为业务所直接使用的可阅读,易理解,有业务价值的数据
标签类目: 标签的分类组织方式,是标签信息的一种结构化描述,目的是管理,查找标签,一般采用多级目录。
属性标签:比如 年龄,体重
统计标签:比如 最近一个月交易金额。(维度和度量的结合)
算法标签:通过复杂逻辑分析推理得出,是通过分析对象在多个场景下发生多个事件的规律性得出的相关结论,比如信用指数,品牌偏好
标签融合表: 以对象为核心把属性标签,统计标签,算法标签组装起来得到的表,是标签数据层落地的产出物。标签融合表设计要考虑标签的类目结构进行合理组织。
ID打通(是标签体系建设的前提)
ID Mapping 技术用的机器学习算法,解决对象数据打通的问题。
通过建立对象标签类目体系来对对象标签进行分类管理。
根目录:
人
自然人
消费者标签类目
员工标签类目
企业法人
营销公司
运输公司
物品
商品
服务
关系
关系记录
关系集合
标签体系: 一类对象的标签类目框架(一般三层) + 标签(叶类目下加标签)
数据转换为帮助业务提升的标签才有价值。大数据到商业价值的桥梁通道建设。
标签即业务需求的数据呈现,商业价值核心承载在标签上,输送到业务以供使用,即完成了数据服务过程。将数据提炼转化为标签的过程叫标签化,就是标签设计。标签设计是理解,抽象,提炼,提升业务场景的数据能力。
标签根目录(供应商)(PK 组织机构+单位编号)
对供应商数据域拆分:
类目:(对供应商的拆分 角度 层面,或者过程)
基本信息(法人代表 营业执照号码 注册地址 开户行 银行账号 全称 ) 对应主表 ( 所有系统的 对应信息 整合为 一个ID )
地理位置
从属关系
标签(字段级刻画):
全域标签,跨业务板块,属性标签
推荐使用横表作为标签融合落地方式。
通过多张融合表来存储标签,融合表和类目表对应。
模型加工: 对象ID打通,标签类目设计,标签设计,标签融合表设计
应用层,维度建模 (相当于数据集市,但是业务范围比数据集市大)
即席分析:Impala
指标查询:HBase
20221029
数据中台: 数据资产,数据安全,数据脱敏,数据成本。
这本书算看了。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性