数据仓库定义

数据仓库：官方定义：就是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合，用于对管理决策过程的支持。

自己：就是整合多个数据源的历史数据进行细粒度、多维的分析，帮助企业管理者做出决策或商业报表。

数据仓库分为：ODS层，一般就是原始数据，不做任何修改

Dwd层：对ODS层数据进行空值去除，过滤掉没有意义的数据，脱敏，维度退化等，减少抽取的复杂性，同时DWD层的信息模型组织主要遵循企业业务事务处理的形式，将各个专业数据进行集中，DWD层和ODS层粒度一样，都是公共资源

Dws层：集市或者宽表，就是按照业务划分对DWD层数据进行综合和汇总统计，用于提供后续业务查询，数据分发等

Ads层：就是应用层，有前面三层统计出来的结果，直接查询展示，或者导入mysql中就是为了满足具体分析需求而构建的数据，从粒来书哦就是高度汇总的数据。

对数据分层的理解：

1、减少重复开发：规范数据分层，通过中间层的数据，能够减少极大的重复数据计算，增加计算结果的复用性

2、数据结构清晰：

3、用空间换取时间：通过建设多层次的数据模型供用户使用

4、复杂问题简单化：将一个复杂的任务分解成多个步骤完成，每一层只处理单一的步骤，比较简单，方便定位问题

5、隔离原始数据：不论数据的异常还是敏感性，使真实数据和统计数据解耦开

维度建模步骤:

1、确认主题：确定数据分析或者前端展示的主题

2、确定量度：主题确定以后，我们考虑要分析的技术指标

3、确定事实数据粒度：在考虑度量以后，我们要考虑到该度量的汇总情况和不同维度下度量的聚合情况

4、确定维度：就是确定我们分析问题的角度

5、创建事实表：确定奥事实数据和维度以后，我们将考虑加载事实表了。

1，事实表：事实表是用来存储主题的主干内容，一些外键指向维度表。事实表一般是没有主键的，基本都是外键。数据的质量完全由业务系统来把握。一般单表字段较多，数据量比较大

2，维度表：事实表中某个方向分支，必须有主键，用于关联事实表。一般数据量较小，变化缓慢。

3，宽表：字段和数据量比较巨大，很多维度杂糅在一起。好处：方便查询分析。缺点：没有规范。

4，拉链表：记录一个事物从开始，一直到当前状态的所有变化的信息。

事实表有哪些：

1、事务事实表：事务层面的事实，保证最原始的数据，事实表数据插入以后不能修改，只能增量更新

2、累计快照事实表：用于跟踪业务事实变化

3、周期快照事实表：据有规律性的，不会保留所有数据，只保留固定时间间隔的数据

拉链表：就是针对数仓设计中表的存储数据的方式而定义的，记录历史的，记录一个事务从开始到当前的所有变化的信息

维度退化：DWD层，维度退化，就是减少事实表和维度表的关联，维度退化以后事实表有了维度表的属性，因此减少了关联

数据中台就是一套方法论，是指通过数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径。数据中台把数据统一之后，会形成标准数据，再进行存储，形成数据大数据资产层，进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性，是这个企业独有的且能复用的，它是企业业务和数据的沉淀，其不仅能降低重复建设、减少烟囱式协作的成本，也是差异化竞争优势在。

1、OneData

（1）数据标准化：数据规范定义从业务源头标准化；

（2）技术内核工具化：规范定义、建模研发、调度运维；

（3）元数据驱动智能化：从半自动化飞跃到智能化规划计算和存储。

2、OneID

（1）技术驱动数据连接：基于超强ID识别技术连接数据；

（2）技术内核工具化：超强ID识别、高效标签生产；

（3）业务驱动技术价值化：从孤岛变化到高质量数据进化到高价值数据。

3、OneService

（1）主题式数据服务：主题逻辑表屏蔽复杂物理表；

（2）统一多样化数据服务：一般查询加OLAP分析配合在线服务；

（3）跨源数据服务：屏蔽多种异构数据源

数据湖：就是一个存储企业的各种各样的原始数据的大型仓库，其中的数据可供存取、处理、分析和传输。

目前hadhoop是最常用的部署数据胡的技术，很多人认为hadhoop集群就是数据湖，其实数据湖就是一个概念，而Hadhoop是用于实现这个概念的技术。

作用：实现数据治理、预测分析、信息追踪雨一致性保障、对历史数据的分析生成新的维度

帮助企业更好的做出决策。

数仓只能存储结构化的，以及历史数据数据湖可以存储结构化，半结构化等所有类型的数据

什么是蜈蚣事实表

蜈蚣事实表是指那些一张事实表中有太多维度的事实表。连接在事实表两边的维度表过多，看起来就像蜈蚣一样

蜈蚣事实表的出现是由于建模师对事实表和维度表逆规范化过了头

蜈蚣事实表虽然使查询效率有所提高，但是伴之而来的是存储空间的大量增长。在维度建模的数据仓库中，维度表的字段个数可以尽可能的增加，但是事实表的字段要尽量减少，因为相比而言，事实表的记录数要远远大于维度表的记录数。

一般来说，事实表相关的维度在15个以下为正常，如果维度个数超过25个，就出现了维度过多的蜈蚣事实表。

posted @ 2021-08-31 16:44 tonggang_bigdata 阅读(993) 评论(0) 编辑收藏举报

刷新页面返回顶部

xiguabigdata

数据仓库定义

什么是蜈蚣事实表

公告