spark中各窗口函数对于窗口的要求

窗口参数

scala
class WindowSpec private[sql](
    partitionSpec: Seq[Expression],
    orderSpec: Seq[SortOrder],
    frame: WindowFrame)

1、Aggregate Functions: 聚合函数,比如:sum(...)、 max(...)、min(...)、avg(...)等.

对于窗口要求无所限制,但窗口参数具备相应的默认值:

partitionSpec 默认是 SinglePartition(单个分区)

orderSpec 默认不排序

frame

  • 当窗口缺少 orderSpec 时,默认 specifiedwindowframe(RowFrame, unboundedpreceding$(), unboundedfollowing$())
  • 当窗口具备 orderSpec 时,默认 specifiedwindowframe(RangeFrame, unboundedpreceding$(), currentrow$())

2、Sort Functions: 排序函数 , 比如:rank()、row_number()、dense_rank() 等.

要求运行的窗口必须具备 orderSpec

并且 frame必须是 specifiedwindowframe(RowFrame, unboundedpreceding$(), currentrow$())

frame 可以不指定,让程序默认生成

partitionSpec 默认是 SinglePartition


3、Analytics Functions: 统计和分析函数,比如:lead(...)、lag(...) 等.

要求运行的窗口必须具备 orderSpec

frame要求使用 RowFrame

precedingfollowing 会根据 函数的offset参数 动态变化,

例如:

scala
lead($"id", offset = 1) over spec.orderBy("id")
// specifiedwindowframe(RowFrame, 1, 1)

lead($"id", offset = 3) over spec.orderBy("id")
// specifiedwindowframe(RowFrame, 3, 3)

lag($"id", offset = 2) over spec.orderBy("id")
// specifiedwindowframe(RowFrame, -2, -2)

lag($"id", offset = 4) over spec.orderBy("id")
// specifiedwindowframe(RowFrame, -4, -4)

frame 可以不指定,让程序默认生成

partitionSpec 默认是 SinglePartition

不难看出,lead 和 lag 函数就是通过 frame 限制窗口的大小和位置来实现的




__EOF__

  • 本文作者: MoonDream
  • 本文链接: https://www.cnblogs.com/blog-moondream/p/18219603
  • 关于博主: 评论和私信会在第一时间回复。或者直接私信我。
  • 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
  • 声援博主: 如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。
  • posted @   MoonDreamV  阅读(151)  评论(0编辑  收藏  举报
    相关博文:
    阅读排行:
    · 本地部署 DeepSeek:小白也能轻松搞定!
    · 如何给本地部署的DeepSeek投喂数据,让他更懂你
    · 在缓慢中沉淀,在挑战中重生!2024个人总结!
    · 大人,时代变了! 赶快把自有业务的本地AI“模型”训练起来!
    · 从 Windows Forms 到微服务的经验教训
    点击右上角即可分享
    微信分享提示