LEVEL I - PART 5 多维数据分析
PART 5 多维数据透视分析(10%)
总体要求
理解多维数据模型价值、理解多维数据模型逻辑、理解透视分析原理、能够活用多维数据模型结合恰当透视方法观测业务问题实现商业洞察
1. 多表透视分析逻辑 (占比 3%)
熟知透视分析的作用价值 - 【熟知】
- 维度:行列标签
理解多表环境下的连接、透视逻辑 - 【熟知】
- 星型模式:由一个事实表和一组维度表组成,维度表只和事实表关联,维度表之间没有关联,以事实表为核心,维度表围绕核心呈星形分布。
- 订单表、产品表与客户表:一个事实表连接两个维度表是星型模式
- 雪花模式:雪花模型相当于将星形模式的大维度表拆分成小维度表,满足了规范化设计。多维表对应单事实表。
- 订单表、产品表与品牌表:单表是事实表,展开产品与品牌两层维度表,展开多层维度是雪花模式
- 星座模式:事实表不止一个,而一个维表也可能被多个事实表用到,分离的事实表,共用维度表,像是宇宙星辰
- 交叉模式: 从一张表到另一张表有多条筛选路径彼此相连接,属于交叉连接模式;
能够通过表的字段理解该表所代表的业务维度及业务意义,能够通过表的业务意义倒推回表中字段的主键、维度、度量属性 - 【应用】
- 主键的业务意义:表的业务记录单位
2. 多维数据模型(占比 3%)
了解使用多维数据模型的业务意义 - 【领会】
- 多维数据模型是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)。
- 当然,通过多维数据模型的数据展示、查询和获取就是其作用的展现,但其真的作用的实现在于,通过数据仓库可以根据不同的数据需求建立起各类多维模型,并组成数据集市开放给不同的用户群体使用,也就是根据需求定制的各类数据商品摆放在数据集市中供不同的数据消费者进行采购。
熟知多维数据模型的创建方法 - 【熟识】
熟知多维数据模型中连接方式与汇总结果间的关系 - 【熟识】
- 关键字段:主表附表都有,字段名不一定相同,但值要对应,不能有重复值
- 横向合并:
- 存放最终合并结果的表为主表;为主表提供必要信息的为附表
- 当两表用于合并的关键字段值不是一一对应,不同连接种类会有不同的结果
- 当关键字有重复值,连接后总行数为关键字段值重复出现次数的乘积
- 纵向合并:
- 将有相同字段名的字段纵向合并到一起
- 将不同字段名的字段追加到最后
- 非匹配字段标记为null
- 关键字段中有重复值的表为主表(*),无重复值的表为附表(1),在数据透视表中,只有当行列标签来自附表时,附表才能提供值字段,否则汇总值出现错误
- 汇总原则:一表出维度,一对多的连接关系
- 筛选器方向:
- 单向:维度指向度量(维度筛选度量,箭头出发一侧为维度)
- 双向:两表间互为筛选
- 谁出度量谁是主表
能够通过 5W2H 思维模型梳理业务线索,搜集完整的多表数据。 - 【应用】
- 5W2H模型:what why who when where how how much
- 能够根据业务需求,按照正确的连接关系创建完整、准确、全面的多维数据模型 能够根据多维数据模型推导出可探索的业务问题范围,实现业务洞察
- 整理数据的思维步骤:
- 将业务场景进行5W2H的概括总结
- 将5W2H总结内容梳理为业务维度
- 将业务维度梳理成数据表
- 将数据展开到字段
3. 透视分析方法(占比 4%)
透视分析的价值及意义 - 【领会】
熟知基本透视规则:求和、求平均、计数、最大最小值 - 【熟识】
熟知条件筛选透视规则:多条件透视计算、不同层级维度透视计算 - 【熟识】
熟知基本对比计算规则:均比、基准比、标准比、百分比、差异百分比 - 【熟识】
熟知时间维度下的透视计算规则:不同时间段、不同时间位移量下的透视计算规则 - 【熟识】
描述业务行为的结果好坏程度,对于指标值的观测应在一定条件下进行,前提条件为:
- 相同时间内
- 相同条件下
- 相同维度下
熟知行间透视与字段上透视的差异 - 【熟识】
能够根据业务需求选择创建正确的透视规则 - 【应用】
能够将透视规则应用在正确的多维模型下描述业务问题 能够通过透视结果理解业务问题 - 【应用】
透视结果与预期结果不符时,能够检查、追踪问题原因 - 【应用】
Be curious. Read widely. Try new things. What people call intelligence just boils down to curiosity. ― Aaron Swartz