摘要:
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 ETL工具或类ETL的数据集成同步工具或语言,企业生产中工具也非常之多,主流的etl工具有Sqoop、DataX、Ca 阅读全文
摘要:
前言: model对于数仓是最核心的东西,数据模型是数据组织和存储方法,模型的好坏,决定了数仓能支撑企业业务多久。 为什么大多数企业,数仓都要重建,这不仅仅是业务拓展、发展迅速,很大一部分是因为模型建的很烂。 01. 基本概念 维度建模,是数据仓库大师Ralph Kimball提出的,是数据仓库工程 阅读全文
摘要:
01. 架构演进 离线数据仓库到实时数据仓库,从lambda架构到kappa架构、再到混合架构。 02. 逻辑分层 数仓分层,一般按ods->dw->dm整体架构。不同的企业,不同的业务场景,有衍生出不同的分层架构模式。例如经典四层架构:ods->dwd->dws-ads,bdl->fdl->gdl 阅读全文