数据仓库、数据库与数据湖的区别
数据库(OLTP)与数据仓库(OLAP)的区别:
1、数据库是面向事务设计的;数据仓库是面向主题设计的
2、数据库一般存储的是在线交易数据,有很高的事务要求;数据仓库存的是历史数据
3、数据库设计采用范式设计,尽量避免冗余;数据仓库采用反范式设计,有意引入冗余
数据库三大范式(
一、列的原子性:列不可再分;
二、属性完全依赖于主键:每个实例或行唯一区分;
三、属性不依赖于其他非主属性,属性直接依赖于主键;a-->b-->c 属性之间含有这样的关系)
4、数据库是为捕获数据而设计的;数据仓库是分析数据而设计的
维表:是看问题的角度不一样
事实表:是放用来查询的数据
OLTP(联机事务处理)和 OLAP(联机分析处理) 的区别:
OLTP:传统关系型数据库的主要应用,主要面对基本的、日常事务处理;用于操作性处理
OLAP:数据仓库的主要应用,支持复杂的分析操作,侧重决策支持,提供直观易懂的结果;
用户:
OLTP :操作人员,底层管理人员;
OLAP :决策人员,高级管理人员;
功能:
OLTP :日常操作处理;
OLAP :分析决策;
DB设计:
OLTP:E-R模型 面向应用
OLAP:星型、雪花、星座模型,面向主题
数据:
OLTP:二维的、最新的、分立的、细节的;
OLAP:多维的、历史的、集成的、聚集的
存储规模,操作频率等;
数据仓库与数据湖的区别
数据仓库 :面对历史数据沉淀和分析使用,存储以关系型数据库组织起来的结构化数据 与 schema 是强匹配:设计在数据仓库实施之前(写入型 schema)
特征:集成性(数据来源众多,需要技术和规范来统一存储方式)。
非易失和随时间变化,存储过去每一天的快照,可对前后数据进行对比。
面对主题,根据业务对数据进行有效的编码,让理论的最佳值在应用中落地。
集中式的:业务分配需求到数据团队--》数据团队加工,开发成维度表。
数据湖 :补全数据仓库实时处理能力,交互式分析能力等新技术的缺失,有丰富的计算引擎:批处理,机器学习,交互式,等。
有多种选择想用什么就用什么
存储任何类型的数据,不许满足 schema 的特性:写入在分析时(读取型 schema )
特征:灵活性,业务不确定,具备‘按需’贴合业务能力
管理型,保存原始信息和处理后的信息,在数据源、数据格式,数据周期等维度,能追溯数据的接入,分析,存储 和使用等流动的过程
多态型:多态的引擎支持,扩展能力,能应对业务的快速变化
开放、自助式的
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏