数据仓库、数据库与数据湖的区别

数据库(OLTP)与数据仓库(OLAP)的区别:

1、数据库是面向事务设计的;数据仓库是面向主题设计的
2、数据库一般存储的是在线交易数据,有很高的事务要求;数据仓库存的是历史数据
3、数据库设计采用范式设计,尽量避免冗余;数据仓库采用反范式设计,有意引入冗余
数据库三大范式
一、列的原子性:列不可再分;
二、属性完全依赖于主键:每个实例或行唯一区分;
三、属性不依赖于其他非主属性,属性直接依赖于主键;a-->b-->c 属性之间含有这样的关系)
4、数据库是为捕获数据而设计的;数据仓库是分析数据而设计的
维表:是看问题的角度不一样
事实表:是放用来查询的数据

OLTP(联机事务处理)和 OLAP(联机分析处理) 的区别:
OLTP:传统关系型数据库的主要应用,主要面对基本的、日常事务处理;用于操作性处理
OLAP:数据仓库的主要应用,支持复杂的分析操作,侧重决策支持,提供直观易懂的结果;


用户:
OLTP :操作人员,底层管理人员;
OLAP :决策人员,高级管理人员;
功能:
OLTP :日常操作处理;
OLAP :分析决策;
DB设计:
OLTP:E-R模型 面向应用
OLAP:星型、雪花、星座模型,面向主题
数据:
OLTP:二维的、最新的、分立的、细节的;
OLAP:多维的、历史的、集成的、聚集的
存储规模,操作频率等;


数据仓库与数据湖的区别

数据仓库 :面对历史数据沉淀和分析使用,存储以关系型数据库组织起来的结构化数据 与 schema 是强匹配:设计在数据仓库实施之前(写入型 schema)
特征:集成性(数据来源众多,需要技术和规范来统一存储方式)。
非易失和随时间变化,存储过去每一天的快照,可对前后数据进行对比。
面对主题,根据业务对数据进行有效的编码,让理论的最佳值在应用中落地。
集中式的:业务分配需求到数据团队--》数据团队加工,开发成维度表。
数据湖 :补全数据仓库实时处理能力,交互式分析能力等新技术的缺失,有丰富的计算引擎:批处理,机器学习,交互式,等。

有多种选择想用什么就用什么
存储任何类型的数据,不许满足 schema 的特性:写入在分析时(读取型 schema )
特征:灵活性,业务不确定,具备‘按需’贴合业务能力
管理型,保存原始信息和处理后的信息,在数据源、数据格式,数据周期等维度,能追溯数据的接入,分析,存储 和使用等流动的过程
多态型:多态的引擎支持,扩展能力,能应对业务的快速变化
开放、自助式的






posted @ 2024-07-09 13:41  尘尘尘尘  阅读(1)  评论(0编辑  收藏  举报