数据仓库定义

数据仓库:官方定义:就是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合,用于对管理决策过程的支持。

自己:就是整合多个数据源的历史数据进行细粒度、多维的分析,帮助企业管理者做出决策或商业报表。

 

数据仓库分为:ODS层,一般就是原始数据,不做任何修改

Dwd层:对ODS层数据进行空值去除,过滤掉没有意义的数据,脱敏,维度退化等,减少抽取的复杂性,同时DWD层的信息模型组织主要遵循企业业务事务处理的形式,将各个专业数据进行集中,DWD层和ODS层粒度一样,都是公共资源

Dws层:集市或者宽表,就是按照业务划分对DWD层数据进行综合和汇总统计,用于提供后续业务查询,数据分发等

Ads层:就是应用层,有前面三层统计出来的结果,直接查询展示,或者导入mysql中就是为了满足具体分析需求而构建的数据,从粒来书哦就是高度汇总的数据。

 

 

对数据分层的理解:

1、减少重复开发:规范数据分层,通过中间层的数据,能够减少极大的重复数据计算,增加计算结果的复用性

2、数据结构清晰:

3、用空间换取时间:通过建设多层次的数据模型供用户使用

4、复杂问题简单化:将一个复杂的任务分解成多个步骤完成,每一层只处理单一的步骤,比较简单,方便定位问题

5、隔离原始数据:不论数据的异常还是敏感性,使真实数据和统计数据解耦开

 

 

维度建模步骤:

1、确认主题:确定数据分析或者前端展示的主题

2、确定量度:主题确定以后,我们考虑要分析的技术指标

3、确定事实数据粒度:在考虑度量以后,我们要考虑到该度量的汇总情况和不同维度下度量的聚合情况

4、确定维度:就是确定我们分析问题的角度

5、创建事实表:确定奥事实数据和维度以后,我们将考虑加载事实表了。

 

1,事实表:事实表是用来存储主题的主干内容,一些外键指向维度表。事实表一般是没有主键的,基本都是外键。数据的质量完全由业务系统来把握。一般单表字段较多,数据量比较大

2,维度表:事实表中某个方向分支,必须有主键,用于关联事实表。一般数据量较小,变化缓慢。

3,宽表:字段和数据量比较巨大,很多维度杂糅在一起。好处:方便查询分析。缺点:没有规范。

4,拉链表:记录一个事物从开始,一直到当前状态的所有变化的信息。

 

 

事实表有哪些:

1、事务事实表:事务层面的事实,保证最原始的数据,事实表数据插入以后不能修改,只能增量更新

2、累计快照事实表:用于跟踪业务事实变化

3、周期快照事实表:据有规律性的,不会保留所有数据,只保留固定时间间隔的数据

 

拉链表:就是针对数仓设计中表的存储数据的方式而定义的,记录历史的,记录一个事务从开始到当前的所有变化的信息

 

 

维度退化:DWD层,维度退化,就是减少事实表和维度表的关联,维度退化以后事实表有了维度表的属性,因此减少了关联

 

 

数据中台就是一套方法论,是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成数据大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势在。

 

 

1OneData

1)数据标准化:数据规范定义从业务源头标准化;

2)技术内核工具化:规范定义、建模研发、调度运维;

3)元数据驱动智能化:从半自动化飞跃到智能化规划计算和存储。

2OneID

1)技术驱动数据连接:基于超强ID识别技术连接数据;

2)技术内核工具化:超强ID识别、高效标签生产;

3)业务驱动技术价值化:从孤岛变化到高质量数据进化到高价值数据。

3OneService

1)主题式数据服务:主题逻辑表屏蔽复杂物理表;

2)统一多样化数据服务:一般查询加OLAP分析配合在线服务;

3)跨源数据服务:屏蔽多种异构数据源

 

 

数据湖:就是一个存储企业的各种各样的原始数据的大型仓库,其中的数据可供存取、处理、分析和传输。

 

目前hadhoop是最常用的部署数据胡的技术,很多人认为hadhoop集群就是数据湖,其实数据湖就是一个概念,而Hadhoop是用于实现这个概念的技术。

 

作用:实现数据治理、预测分析、信息追踪雨一致性保障、对历史数据的分析生成新的维度

帮助企业更好的做出决策。

 

 

数仓只能存储结构化的,以及历史数据   数据湖可以存储结构化,半结构化等所有类型的数据

 

 

什么是蜈蚣事实表

蜈蚣事实表是指那些一张事实表中有太多维度的事实表。连接在事实表两边的维度表过多,看起来就像蜈蚣一样

蜈蚣事实表的出现是由于建模师对事实表和维度表逆规范化过了头

蜈蚣事实表虽然使查询效率有所提高,但是伴之而来的是存储空间的大量增长。在维度建模的数据仓库中,维度表的字段个数可以尽可能的增加,但是事实表的字段要尽量减少,因为相比而言,事实表的记录数要远远大于维度表的记录数。

一般来说,事实表相关的维度在15个以下为正常,如果维度个数超过25个,就出现了维度过多的蜈蚣事实表。

posted @ 2021-08-31 16:44  tonggang_bigdata  阅读(951)  评论(0编辑  收藏  举报