摘要: 一、前言 公司实用Hadoop构建数据仓库,期间不可避免的实用HiveSql,在Etl过程中,速度成了避无可避的问题。本人有过几个数据表关联跑1个小时的经历,你可能觉得无所谓,可是多次Etl就要多个小时,非常浪费时间,所以HiveSql优化不可避免。 注:本文只是从sql层面介绍一下日常需要注意的点 阅读全文
posted @ 2017-11-28 15:55 SamaelB 阅读(459) 评论(0) 推荐(0) 编辑
摘要: 事实表分成三种:事务事实表、周期快照事实表、累计快照事实表 事务事实表 官方定义是:发生在某个时间点上的一个事件。比如以订单为例:下单是一个事实、付款是一个事实、退款是一个事实,所有事实的累计就是事务事实表 周期快照事实表 如果需要对某一天或者某个月的数据进行分析,那么可以使用周期快照事实表,比如: 阅读全文
posted @ 2017-11-28 15:19 SamaelB 阅读(960) 评论(0) 推荐(0) 编辑
摘要: 数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)、APP(应用层) ODS层: 为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的 阅读全文
posted @ 2017-11-28 15:01 SamaelB 阅读(6444) 评论(0) 推荐(0) 编辑
摘要: 1.业务数据——ODS——数据仓库 优点:这样做的好处是ODS的数据与数据仓库的数据高度统一;开发成本低,至少开发一次并应用到ODS即可;可见ODS是发挥承上启下的作用,调研阿里巴巴的数据部门也是这么实现的。 缺点:数据仓库需要的所有数据都需要走ODS,那么ODS的灵活性必然受到影响,甚至不利于扩展 阅读全文
posted @ 2017-11-28 14:54 SamaelB 阅读(380) 评论(0) 推荐(0) 编辑