摘要: 阅读全文
posted @ 2023-02-27 14:53 奇葩兔子 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 1.from2.join on 或 lateral view explode(需炸裂的列) tbl as 炸裂后的列名3.where4.group by (开始使用select中的别名,从group 开始往后都可用)5.聚合函数 如Sum() avg() count(1)等6.having7.sel 阅读全文
posted @ 2023-02-20 11:10 奇葩兔子 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-02-03 16:45 奇葩兔子 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-01-18 17:03 奇葩兔子 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 1.ProcessFunction系列函数 2.窗口算子的使用 3.处理迟到数据 阅读全文
posted @ 2023-01-18 14:40 奇葩兔子 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-01-18 14:30 奇葩兔子 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-01-18 14:25 奇葩兔子 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 1.watermark Flink对于乱序数据怎么办呢? 方案就是 watermark。 watermark,直译为水位线,就是元素可以迟到多久才去关闭窗口。例如一个窗口是[0-5),,watermark允许最多延迟3s(指的是watermark参数是3s),那么一个6s的事件,它的watermar 阅读全文
posted @ 2021-12-09 19:19 奇葩兔子 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 假设我们的表是存储在 Hive 的 MetaStore 里面的,表名为 iteblog,并且数据的组织结构如上如所示。 1.查询最新快照的数据 •通过数据库名和表名,从 Hive 的 MetaStore 里面拿到表的信息。从表的属性里面其实可以拿到 metadata_location 属性,通过这个 阅读全文
posted @ 2021-11-29 17:53 奇葩兔子 阅读(1360) 评论(0) 推荐(0) 编辑
摘要: 在上一篇文章中我们主要讲解了iceberg各个元数据文件中的数据组织形式,那么这些元数据是怎么生成的呢?如何通过spark写入iceberg?本文将带大家简单了解一下使用spark 2.4.7 batch写入iceberg的整体流程。 spark写入示例 本文主要演示如何使用iceberg hado 阅读全文
posted @ 2021-10-25 16:40 奇葩兔子 阅读(2112) 评论(0) 推荐(0) 编辑