随笔分类 - 数据仓库
摘要:ETL这个过程可以说下整套数据流程下来最枯燥也是最耗时间的流程,但是也是最重要的。很多时候我们不缺数据,缺的是好数据,而ETL的结果则导致下游成员的数据质量。 ETL是贯穿数仓的整个环节,不是说只是在某一个地方才使用的。ETL工作的实质就是从各个数据源提取数据,对数据进行转换,并最终加载填充数据到数
阅读全文
摘要:这次总结下维度建模的形式:星型建模,雪花建模,星座模型 (维度建模不需要数据产品去实施,但是需要了解) 先说下两个概念:事实表,维度表 1. 维度表(dimension) 比如"昨天早上我在TB使用了50元购买了一个鞋子"。那么以购买为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天早上),
阅读全文
摘要:说下自己的理解: 数据仓库是分层的,通常情况下都是进行三层建模(当然也不是绝对的)。 例如上次说的商品订单数据表,表字段可能有非常多个,但是我们使用的时候可能只用到UID,PayTime,CreateTime, PayMoney,等字段。这个过程需要不断的过滤。每过滤一层就需要在新的一层储存一次。类
阅读全文
摘要:今天总结了下我司的一套数仓体系流程: 这是目前自己总结出来的大致流程,作为笔记。 里面的从数据源抽取,数据存储,数据建模,数据仓库分层分线,ETL,以及最后输出的数据应用将另外作为单独的笔记写。 再次强调本笔记是以产品人员的角度进行编写并非专业技术人员,如有错误请指正,本人也会进行修改
阅读全文
摘要:本文以实际工作经验为实例,与大家一同谈谈数据仓库中的架构。 首先在说下数据底层的架构是大概怎么样的,在实际的业务需求当中,都是基于这套架构围绕的。 1.为什么要搭建数仓? 数据仓库其实也是数据库,和数据库的功能都是致—的都是为了存储数据。 那么公司在什么情况下需要搭建数据仓库呢? 当企业发展到一定的
阅读全文