数据仓库概述
数据仓库产生的背景
1、历史数据积存
历史数据使用频率低,堆积在业务库中,导致性能下降,定期转移到特定的地方,就是数据仓库。高频数据支持线上业务正常运行,如果需要历史数据,再从数据仓库中操作
2、数据分析
数仓面向于业务分析,业务数据库面向于业务
数据仓库(Data Warehouse,DW)
由数据仓库之父比尔·恩门(Bill Inmon)提出。
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合
主要用于组织积累的历史数据,并使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能
数据仓库特点
面相主题:为数据分析提供服务,根据主题将原始数据集合在一起
集成:原始数据来源于不同数据源,要整合成最终数据,需要经过抽取汉、清洗、转换的过程
非易失:保存的数据是一系列历史快照,不允许被修改,只只允许通过工具进行查询、分析
时变性:数仓会定期接收、集成新的数据,从而反映出数据的最新变化
数据仓库VS数据库
数据库面向事务设计,属于OLTP(在线事务处理)系统,主要操作是随机读写;在设计时尽量避免冗余,常采用符合范式规范来设计
数据仓库是面向主题设计的,属于OLAP(在线分析处理)系统,主要操作是批量读写;关注数据整合,以及分析、处理性能;会有意引入冗余,采用反范式方式设计