Hive-数据仓库理论

数据仓库

用于存储、分析、报告的数据系统,目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持。
主要特征
1、面向主题-在抽象层面上是对数据进行完整、一致和准确的描述,在逻辑意义上,是对应企业中某一宏观分析领域所涉及的分析对象;
2、集成性-与主题相关的数据通常会分布在多个操作型系统中,彼此分散、独立、异构,需要集成到数仓主题下,需要对数据进行抽取、转换、加载(ETL);
3、非易失性-数据仓库是分析数据的平台而不是创造数据的平台,它反映的是一段相当长的时间内的历史数据,在数仓中多是查询操作,而不是修改和删除;
4、时变性-数仓的数据需要随时间更新,以适应决策的需要。

OLTP、OLAP

OLTP:联机事务处理(On-Line Transaction Processing)
传统的关系型数据库系统,主要用于数据操作型处理,针对具体业务在数据库联机的日常操作,用户会比较关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。
OLAP:联机分析处理(On-Line Analytical Processing)
用于数据分析,大数据,一般响应比较慢。

数据仓库分层

一般是三层:
操作型数据层(ODS)、数据仓库层(DW)和数据应用层(DA)

posted @ 2022-06-30 16:47  Stella77  阅读(71)  评论(0编辑  收藏  举报