数据仓库定义
数据仓库:官方定义:就是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合,用于对管理决策过程的支持。
自己:就是整合多个数据源的历史数据进行细粒度、多维的分析,帮助企业管理者做出决策或商业报表。
数据仓库分为:ODS层,一般就是原始数据,不做任何修改
Dwd层:对ODS层数据进行空值去除,过滤掉没有意义的数据,脱敏,维度退化等,减少抽取的复杂性,同时DWD层的信息模型组织主要遵循企业业务事务处理的形式,将各个专业数据进行集中,DWD层和ODS层粒度一样,都是公共资源
Dws层:集市或者宽表,就是按照业务划分对DWD层数据进行综合和汇总统计,用于提供后续业务查询,数据分发等
Ads层:就是应用层,有前面三层统计出来的结果,直接查询展示,或者导入mysql中就是为了满足具体分析需求而构建的数据,从粒来书哦就是高度汇总的数据。
对数据分层的理解:
1、减少重复开发:规范数据分层,通过中间层的数据,能够减少极大的重复数据计算,增加计算结果的复用性
2、数据结构清晰:
3、用空间换取时间:通过建设多层次的数据模型供用户使用
4、复杂问题简单化:将一个复杂的任务分解成多个步骤完成,每一层只处理单一的步骤,比较简单,方便定位问题
5、隔离原始数据:不论数据的异常还是敏感性,使真实数据和统计数据解耦开
维度建模步骤:
1、确认主题:确定数据分析或者前端展示的主题
2、确定量度:主题确定以后,我们考虑要分析的技术指标
3、确定事实数据粒度:在考虑度量以后,我们要考虑到该度量的汇总情况和不同维度下度量的聚合情况
4、确定维度:就是确定我们分析问题的角度
5、创建事实表:确定奥事实数据和维度以后,我们将考虑加载事实表了。
1,事实表:事实表是用来存储主题的主干内容,一些外键指向维度表。事实表一般是没有主键的,基本都是外键。数据的质量完全由业务系统来把握。一般单表字段较多,数据量比较大
2,维度表:事实表中某个方向分支,必须有主键,用于关联事实表。一般数据量较小,变化缓慢。
3,宽表:字段和数据量比较巨大,很多维度杂糅在一起。好处:方便查询分析。缺点:没有规范。
4,拉链表:记录一个事物从开始,一直到当前状态的所有变化的信息。
事实表有哪些:
1、事务事实表:事务层面的事实,保证最原始的数据,事实表数据插入以后不能修改,只能增量更新
2、累计快照事实表:用于跟踪业务事实变化
3、周期快照事实表:据有规律性的,不会保留所有数据,只保留固定时间间隔的数据
拉链表:就是针对数仓设计中表的存储数据的方式而定义的,记录历史的,记录一个事务从开始到当前的所有变化的信息
维度退化:DWD层,维度退化,就是减少事实表和维度表的关联,维度退化以后事实表有了维度表的属性,因此减少了关联
数据中台就是一套方法论,是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成数据大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势在。
1、OneData
(1)数据标准化:数据规范定义从业务源头标准化;
(2)技术内核工具化:规范定义、建模研发、调度运维;
(3)元数据驱动智能化:从半自动化飞跃到智能化规划计算和存储。
2、OneID
(1)技术驱动数据连接:基于超强ID识别技术连接数据;
(2)技术内核工具化:超强ID识别、高效标签生产;
(3)业务驱动技术价值化:从孤岛变化到高质量数据进化到高价值数据。
3、OneService
(1)主题式数据服务:主题逻辑表屏蔽复杂物理表;
(2)统一多样化数据服务:一般查询加OLAP分析配合在线服务;
(3)跨源数据服务:屏蔽多种异构数据源
数据湖:就是一个存储企业的各种各样的原始数据的大型仓库,其中的数据可供存取、处理、分析和传输。
目前hadhoop是最常用的部署数据胡的技术,很多人认为hadhoop集群就是数据湖,其实数据湖就是一个概念,而Hadhoop是用于实现这个概念的技术。
作用:实现数据治理、预测分析、信息追踪雨一致性保障、对历史数据的分析生成新的维度
帮助企业更好的做出决策。
数仓只能存储结构化的,以及历史数据 数据湖可以存储结构化,半结构化等所有类型的数据
什么是蜈蚣事实表
蜈蚣事实表是指那些一张事实表中有太多维度的事实表。连接在事实表两边的维度表过多,看起来就像蜈蚣一样
蜈蚣事实表的出现是由于建模师对事实表和维度表逆规范化过了头
蜈蚣事实表虽然使查询效率有所提高,但是伴之而来的是存储空间的大量增长。在维度建模的数据仓库中,维度表的字段个数可以尽可能的增加,但是事实表的字段要尽量减少,因为相比而言,事实表的记录数要远远大于维度表的记录数。
一般来说,事实表相关的维度在15个以下为正常,如果维度个数超过25个,就出现了维度过多的蜈蚣事实表。