数仓简介

数据仓库

是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合，它可以为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

面对大数据的多样性，在存储和处理这些大数据时，我们就必须要知道两个重要的技术，其分别是：数据仓库技术、Hadoop。当数据为结构化数据，来自传统的数据源，则采用数据仓库技术来存储和处理这些数据

1. 什么是数据仓库

数据仓库之父 Bill Inmon 将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持管理者的决策过程。
数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持。
数据仓库本身并不 “生产” 任何数据；同时自身也不需要 “消费” 任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫 “仓库” ，而不叫 “工厂” 的原因。

1.1 数仓诞生背景

历史数据堆积
存在冷数据，导致业务库的性能下降，需要将其从业务数据库中转移出去

企业数据分析的需要
企业存在多个部门，统一整合数据仓库并抽取分析，辅助管理层决策

1.2数据仓库基本概念

数据仓库是面像主题的，集合的，非易失的，随时间变化的数据集合

1.3数据仓库的特点

面向主题的：根据主题将原始数据聚合在一起（零碎表聚合再一起变成大宽表）
集成:原始数据来源于不同数据源，整合成统一规范的最终数据，需要经过抽取，清洗，转换的过程
非易失：保存的数据是一系列历史快照，不允许被修改，用于查和分析
时变性：定期接收，集成新的数据，从而反映出数据的最新变化

2. 数据仓库的基本概念

2.1 数据源
构建一个数据仓库，必然要有充足的数据源，从外部为数据仓库系统提供进行分析的 “原材料” ——数据，这些数据来源称为数据仓库的数据源。
数据源并不局限于传统数据库，可以是非结构化的信息，如爬取日志，也可以是埋点日志。

2.2 ETL
在 BI 项目中 ETL 会花掉整个项目至少 1/3 的时间，ETL 设计的好坏直接关系到 BI 项目的成败。其中，花费时间最长的是 “T”（Transform，清洗、转换）的部分，一般情况下这部分工作量是整个 ETL 的 2/3 。
ETL 是将业务系统中的数据经过抽取（Extract）、清洗转换（Transform）和加载（Load）到数据仓库的过程，目的是将企业中的分散、凌乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。
ETL 处理分为五大模块，分别是：数据抽取、数据清洗、数据转换、规则检查、数据装载。各模块之间灵活组合，形成 ETL 处理流程。

2.4 数据集市
数据集市（Data Market，DM）是为企业特定部门的决策支持而组织起来的一批数据和业务规划。
它是一种小型的、部门级数据仓库，习惯上称之为 “主题域” ，企业的不同部门有不同的 “主题域” ，因而就有不同的数据集市。
数据集市有两种类型：独立型数据集市（Independent Data Mart）和从属型数据集市（Dependent Data Mart）。
独立型数据集市的实质，是为了满足企业内各部门的分析需求而建立的微型数据仓库。
有些企业在实施数据仓库项目时，为了节省投资，尽快见效，针对不同部门的需要，分布建立起这类数据集市，已解决一些较为迫切的问题。
但是，当多个独立的数据集市增长到一定规模后，由于没有统一的数据仓库协调，企业只会又增长出一些新的信息孤岛，仍然不能以整个企业的视角来分析数据。

数据库和数据仓库的区别

2.5传统数仓和大数据数仓的建设方案
2.5.1传统数仓
内容：由关系型数据库(单机)组成（大规模并行)的MPP处理集
提前调度业务数据库的数据分配到各个节点进行存储(一般使用hash)，各个节点计算出来的结果也是部分结果，汇总成一个总结果

优点：数据迁移成本低（因为和业务库用的都是同样的关系型数据库），兼容原有的sql语法，并继承单机型数据库优异的性能

缺点：即使增加了大容量的硬盘，由于数据量大也没办法满足存储需求导致

(1) 扩展性有限

①单机架构发展过来的，进行功能扩展的时候，通过增加中间件方式，有中间件把数据分发到各个节点，计算任务也是中间件进行汇总，每个节点本质也是一个数据库，如果需要数据交换(用到其他数据库数据)，就需要通过高速网络与其他节点连接，高速网络的支撑直接决定了节点上线

②分库分表，例如将一张大表分发到各个节点存储，但是由于表粒度很细，也是有上限的。

(2) 热点问题

一张大表分库分表存储，部分库中的数据为热点数据，这个节点就容易存在宕机，超时等问题，从而影响整个系统的性能，节点出现错误越多。(可以通过数据加盐的方式：表中数据增加前缀，随机分布到各个节点中)

2.5.2 大数据数据仓库
内容:
(1)基于大数据技术(天然的分布式存储、分布式计算)，并添加上sql的支持形成的架构

(2)在数据处理方面：为了避免大海量数据的移动，造成IO跟网络的开销，所以使用了移动计算，而不是移动数据的架构(在哪儿存储就在哪儿计算，部分计算结果再进行汇总)

缺点：
(1)初期易用性差(SQL支持率)

计算引擎有自己特定的语法，但是企业中的数据都是放在数据库中的结构化数据(就是SQL)咯，如果要整到大数据平台，那时候需要做大量的业务数据迁移工作(语法上的转换成SQL转成大数据处理语法)

(2)事务支持方面

分布式结构实现事务比较难，即使是大数据产品对事务的支持也是比较不全的，但是针对数据分析，事务的问题也不是致命的问题

(3)数据量较少的时候计算比较慢

数据量不大，光是数据转换，分发，调度，汇总，整个过程本身就会花很多时间，数据量打达到某个量级，调度时间远远小与计算时间了

优势:
(1)解决了扩展性的问题

分布式文件系统：默认文件拆分，以128m大小分发到各个节点进行存储，不用考虑分库分表的问题，就是当成文件。上层处理的时候，采用元数据把文件还原成表结构

(2)解决了热点问题

会对分布式存储的文件进行备份，默认备份三份给到不同的节点，分发计算任务的时候，他是可以选择备份节点中最空闲的一个节点，就极大降低了热点的问题

2.6 MMP架构和分布式架构的具体区别
2.6.1 MMP架构
内容:
将单机数据库节点组成集群，比单机数据库整理性能肯定会好一些

节点间非共享，每个节点都有自己的独立的磁盘存储系统和内存系统，每个节点不会去关心其他节点的状态以及整个集群的状态

每个集群节点之间通过专用网络和商用网络进行连接，要是要用到其他节点的数据，就得用到高速网络，所以对网络传输要求就很高，搭建成本也是比较高的，并且每个节点是必须得协同，无法单独，必须依托整个集群向外提供整体服务

由于是关系型数据库组成的集群，所以在架构设计上遵从了关系型数据库的设计理念，设计上优先考虑C(一致性)：事务特性，再考虑A(可用性)，尽量P(分区容错性)

优点:
由于CAP顺序考虑，运算方式精细，更注重锁，事务，包括内外寸交互的细节，从而保证了数据的一致性，可靠性

因为精细，所以时间，延迟上都比较，同时精细导致在集群吞吐量上比较差，数据达到一定规模了，就会变成局限规模的一个瓶颈，所以适合中等的规模的结构化数据处理

缺点:
(1)数据存储不透明

①存储靠的是Hash确定在哪个节点，查询是没法提前知道数据存放在那个节点，查询任务会在所有节点执行，这个是非共享架构决定的，虽然对性能没啥影响，真正有影响是如下

(2)拓展性问题

并行运算时，一个节点缓慢了，别的节点需要等待，单个节点一定会成为整个系统的短板，改善方式有、把这个缓慢节点上的数据通过高速网络传到别的节点进行计算,但是节点量比较多，故障率不变，故障节点数增加，瓶颈就会明显，所以扩展行较差

c分布式事务的实现会导致扩展性降低

2.6.2 分布式架构
内容:
或者叫hadoop架构，或者是批处理架构
各节点可以实现场地自治(可以单独运行局部程序)：每个节点相当于服务器，既包含存储的资源也包含计算的资源，当计算任务分发到各个节点的时候，是可以访问公共存储系统(共享的数据)，找到数据所在位置，做到了访问数据的透明
各个节点是通过局域网和广域网相连，在运算是致力于减少数据移动(移动计算而非移动数据)
优先考虑P(分区容错)然后A(可用性),再然后C(一致性)，保证容错性：存储的时候拆分成多个分片，然后分片下多个副本，减少了单层故障的问题，保证了容错性
优点:
文件处理方式粗犷，导致吞吐量特别大，随着数据量大，处理优势明显
采用公共的数据存储，扩展性极强，非常适合处理结构化或者非结构化的数据(指的一些格式化的数据)
2.6.3 MPP架构+分布式架构
内容：
数据存储层采用分布式架构中的公共存储，提高分区容错性(把数据透明化)
上层架构采用MPP架构精细化处理模式，减少运算的延迟
运用场景：
由于延迟较低，运行速度比较快，在实时的流处理场景中经常被采用
2.7常见一些数据仓库的产品
2.7.1传统数仓技术选型
Oracle REC:Oracle集群版本，oracle本身不属于MPP架构，因为他每个节点之间是共享磁盘资源的，当个集群仅100左右的节点，适合数据量不大的场景
Db2:集群版本Db2 DPF,IBM下商业数据库，是’MPP架构的，一般买硬件有时会送，数仓很少用
Teradata：易用性和性能都特别优秀，一体机销售(软硬件捆绑)，可用性和高兵发性能优秀，而且自带数据引擎和查询工具，大型企业数仓选型会用
Greenplum：开源的，基于Postgre SQL改造而来的

2.7.1大数据数据仓库
Hive:属于hadoop分布式架构(hadoop生态圈)，将sql转换成大数据计算引擎mapreduce进行运算，不过现在也能支持成转成spark，在海量数据的批处理分析计算上，吞吐量大，但是延迟高，有自己的一套sql语法：hivesql，如果业务迁移，也是有一定的复杂度，离线批处理是hive的主场
Spark sql:属于spark生态圈数据产品，诞生是因为hive背后的mapreduce运行速度慢，产生了hive on spark，对比hive，hive需要单独安装和运维，要有一个机群，但是spark sql，只要有一个saprk集群，就可以运行，不需要单独安装
Hbase:是一个 no sql数据库，更适合存储非结构化数据，半结构化数据，特征可以高并发读，不会被关系型数据库中的规则限制:比如表结构的频繁的DDL以及变动对其影响是很小的，试用的场景是:实时流处理的数据存储，还有前段业务系统高并发的业务查询
Impala:是MPP架构的一个数据查询引擎，底层是兼容hive sql，spark sql，hbase，提供的是快速交互查询的服务，是所为数仓补充产品，是一个快速查询的接口
HAWQ:Greenplum在hadoop上的移植产品，批处理架构+MPP，兼容两者性能
TIDB:架构是MPP+SMP,底层也是NO SQL存储，同时可以欧了OLAP,也可以OLTP,更侧重OLTP的性能

posted @ 2022-06-23 16:28 技术改变命运Andy 阅读(1155) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部