数据仓库介绍
数据仓库
1.概念
- 名称:Data Warehouse , 简称DW或DWH。
- 作用:构建面向分析的集成化数据环境,为企业提供决策支持。出于分析性报告和决策支持目的的创建
- 本性:不“生产”任何数据,不“消费”任何数据,数据来源外部,开放给外部应用。所以叫仓库。
2.主要特征
是决策支持系统和联机分析应用数据源的结果化数据环境。
数据仓库研究和解决从数据库中获取信息的问题。
特征在于面向主题、集成性、稳定性和时变性。
- 面向主题
- 面向事务处理任务,抽象。
- 集成性
- 数仓中的data是对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
- ETL(Extract_Load_Transform)抽取 加载 集成
- ETL介绍
- 数仓的数据来自分散的操作性数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数仓,要完成的工作有:
- 1.统一源数据中所有矛盾,如字段的同名异义、异名同义、单位不统一、字长不一致
- 2.进行数据综合和计算,数仓中的数据综合工作可以在从源数据库中抽取时生成,但许多是在数据仓库内部生成的
- 非易失性(不可更新)
- 数仓中的数据通常包含历史信息,系统记录了企业从过去某一时间点(从开始应用数据仓库的时间点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测.
- 基于数仓是提供分析和预测的数据的,那么一般所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载和刷新.
- 时变性:
- 数仓中的数据是按照时间顺序进行追加的,都带有时间属性.
3.数据库和数据仓库的区别
4.数仓的分层(一面试就问)
数据集市介绍
是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度,需要的计算的指标,维度的层次等,生成面向决策分析需求的数据立方体.
维度
1.维度
观察数据的角度,如时间,地点. group by后的内容.
2.度量
基于数据计算出来的值. 一个数据,如总销售额. agg聚合后求到的值.
本文来自博客园,作者:jsqup,转载请注明原文链接:https://www.cnblogs.com/jsqup/p/15691548.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?