数据仓库(10)数仓拉链表开发实例

合集 - 数据仓库入门与实践(13)

1.数据仓库(1)什么是数据仓库，数仓有什么特点2022-01-28 2.数据仓库(2)数仓、大数据与传统数据库的区别2022-02-07 3.数据仓库(3)数仓建模之星型模型与维度建模2022-02-15 4.数据仓库(4)基于维度建模的数仓KimBall架构2022-02-23 5.数据仓库(5)数仓Kimball与Inmon架构的对比2022-03-31 6.数据仓库(6)数仓分层设计2022-04-14 7.数据仓库(7)数仓规范设计2022-04-20 8.数据仓库(8)数仓事实表和维度表技术2022-04-20 9.数据仓库(9)数仓缓慢变化维度数据的处理2022-05-06

10.数据仓库(10)数仓拉链表开发实例2022-05-06

11.数据仓库(11)什么是大数据治理，数据治理的范围是哪些2022-05-06 12.数据仓库(12)数据治理之数仓数据管理实践心得2022-05-11 13.数据仓库(13)大数据数仓经典最值得阅读书籍推荐2022-05-12

拉链表是数据仓库中特别重要的一种方式，它可以保留数据历史变化的过程，这里分享一下拉链表具体的开发过程。

维护历史状态，以及最新状态数据的一种表，拉链表根据拉链粒度的不同，实际上相当于快照，只不过做了优化，去除了一部分不变的记录，通过拉链表可以很方便的还原出拉链时点的客户记录。

这里用商品价格的变化作为例子，具体的开发过程要按实际的来，不能照搬代码，编程重要的是了解背后的思路和原理，而不是ctrl+c和ctrl+v。那对我们学习提升的帮助有限，虽然可能对完成工作的效率帮助很大。

在开始介绍之前，这里的数据仓库的环境是HIVE。

首先看看原始的数据:

商品价格原始数据

可以看到，原始的数据是每一个商品，一条记录，每一个商品，只保留最新的价格信息。这里的拉链表，我们做到天粒度的。

我们这里的思路是这样的，将最新的商品记录插入历史拉链表中，然后我们通过HIVE的窗口行数，按照end_date排序，然后分别取下一条的sale_price和end_date，然后再判断本条的价格和下一条的价格是否相等，如果是一样的，那么就把end_date改为下一条的end_date,最后做去重处理，然后就得到我们想要的数据了。

说了这么多，我觉得还是把sql贴出来会好一些，代码是最好的语言。

talk is cheap,show me the code。

 -- 商品原始表这里取名goods_table
select spu_id,
       min(start_date) as start_date,
       end_date as end_date,
       sale_price
from
  (select spu_id,
          start_date,
          if(sale_price = lead_sale_price,lead_end_date,end_date) as end_date,
          sale_price
   from
     ( select spu_id,
              start_date,
              end_date,
              sale_price,
              lead(sale_price,1,null) over(partition by spu_id order by end_date) as lead_sale_price,
              lead(end_date) over(partition by spu_id order by end_date) as lead_end_date
      from goods_table ) t) t
group by spu_id,
         end_date,
         sale_price ;

根据上面的代码，跑出来的，就是我们想要的拉链表的数据了，看看最后的效果。

商品价格拉链表数据

使用这种方式即可以记录历史，可以最大程度的节省存储，不会产生过多的冗余。

参考文章：数据仓库(10)数仓拉链表开发实例

posted @ 2022-05-06 21:29 张飞的猪阅读(286) 评论(2) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 数据仓库(9)数仓缓慢变化维度数据的处理

· 数据仓库(8)数仓事实表和维度表技术

· 数据仓库之订单拉链表实战

· 数仓-拉链表

· hive-拉链表

阅读排行：
· 一个费力不讨好的项目，让我损失了近一半的绩效！
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单！
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库

公告

欢迎关注微信公众号，不定期数据开发分享，学习资料分享等。
公众号回复“数据仓库”，可以领取11本数据仓库书籍资料。

张飞的猪的技术总结

技术开发总结，v:张飞的猪

数据仓库(10)数仓拉链表开发实例

公告

常用链接

合集 (5)

随笔分类 (83)

阅读排行榜

评论排行榜

最新评论

	-- 商品原始表这里取名goods_table
	select spu_id,
	min(start_date) as start_date,
	end_date as end_date,
	sale_price
	from
	(select spu_id,
	start_date,
	if(sale_price = lead_sale_price,lead_end_date,end_date) as end_date,
	sale_price
	from
	( select spu_id,
	start_date,
	end_date,
	sale_price,
	lead(sale_price,1,null) over(partition by spu_id order by end_date) as lead_sale_price,
	lead(end_date) over(partition by spu_id order by end_date) as lead_end_date
	from goods_table ) t) t
	group by spu_id,
	end_date,
	sale_price ;