数据仓库的几个概念对比
一,ETL 和 ELT:
很明显顺序不同,ETL 首先把数据从源系统导入到暂存服务器,然后放入目标系统。 然后,ELT 把数据直接加载到目标系统。
ETL 适用于 预定前提的关系型结构化数据,而ELT适用于 可扩展的结构化和非结构化数据源。前者适用于小规模数据,不提供数据湖支持,后者适用于大规模数据,支持数据湖。在传统的数仓系统时代,ETL使用更加广泛。进入大数据时代,开始使用ELT。
ETL更容易实施,而ELT 需要更加针对性的技能取实施和维护。
我任务最大的区别在于, Transformation 步骤发生在哪个系统。ETL 发生在 专用的 暂存服务器,ELT 发生在目标系统(比如 HIVE 数仓)。
二,数据仓库和数据集市:
数仓 | 数据集市 | |
---|---|---|
1. | 中心化系统 | 分散化系统 |
2. | 稍稍反规范化 | 大部分的反规范化 |
3. | 至上而下模型 | 至下而上模型 |
4. | 构建过程比较难 | 容易 |
5. | 星系模型 | 使用星型模型和雪花模型 |
6. | 模型更灵活 | 不灵活 |
7. | 天生面向数据的 | 面向项目的 |
8. | 长生命周期 | 短生命周期 |
9. | 数据以细节数据保存 | 数据以概括性数据保存(比如选取适用本项目的特定字段) |
10. | 数据量大 | 比数仓小 |
11. | 来源不同的系统 | 一般数据来源于数仓 |
三,
---一------步-----一 ------个-----脚--------印----------