数据仓库相关概念
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
数据库:是一种逻辑概念,用来存放数据的仓库。通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里可以有很多字段。字段一字排开,对应的数据就一行一行写入表中。数据库的表,在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库。如:Oracle、DB2、MySQL、Sybase、MS SQL Server等。
业务数据库中的数据结构是为了完成交易而设计的,不是为了而查询和分析的便利设计的。
业务数据库大多是读写优化的,即又要读(查看商品信息),也要写(产生订单,完成支付)。
数据仓库:是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策。
数据仓库的表结构是依照分析需求,分析维度,分析指标进行设计的。
总结
数据库 比较流行的有:MySQL, Oracle, SqlServer等
数据仓库 比较流行的有:AWS Redshift, Greenplum, Hive等。
数据仓库:简称EDW(Enterprise Data Warehouse),企业级数据仓库,现在大家都在说的就是这个。所不同的是每个行业的EDW都有一个通用的数据模型,结构精简,扩展性强,应用性强,数据模型不像ODS乃样会有很大的冗余。
数据集市:简称DM(data mart),以某个应用为出发点而建设的局部DW,为什么这么说,DM只关心自己需要的数据。不会全盘考虑企业整体的数据架构和应用,每个应用都有自己的DM。所以DM可以基于仓库建设也可以独立建设。
AM(analysis model)分析模型:
来源DW数据仓库,将DW数据仓库的数据进行转换、加工处理,做为数据集成的基础。