蓝天

2023年5月16日 #

FlinkSQL和SparkSQL区别

摘要: 区别: FlinkSQL 的 insert 语句可只操作部分字段,而 SparkSQL 必须指定所有字段: spark-sql> create table t11 ( > ds BIGINT, > ts BIGINT, > pk BIGINT, > f0 BIGINT, > f1 BIGINT, > 阅读全文

posted @ 2023-05-16 16:51 #蓝天 阅读(99) 评论(0) 推荐(0) 编辑

Hudi的ro和rt表

摘要: 建表后并不会产生 ro 和 rt 两个表: spark-sql> create table hudi_mor_tbl ( > id int, > name string, > price double, > ts bigint > ) using hudi > tblproperties ( > t 阅读全文

posted @ 2023-05-16 16:29 #蓝天 阅读(279) 评论(0) 推荐(0) 编辑

Hudi表数据重复原因

摘要: 测试中,发现虽然显示设置为 upsert,且也按规范设置了 primaryKey、preCombineField,type 等,但查出的结果仍然存在重复。反复测试,重复的数据稳定为 2,且同一数据的一笔提交时间也保持不变。结果显示同一数据分区相同,但来自不同的 HDFS 文件。 相关Issue 这个 阅读全文

posted @ 2023-05-16 12:48 #蓝天 阅读(274) 评论(0) 推荐(0) 编辑

正确DROP掉MOR类型的HUDI表

摘要: 假设有一张下面这样的 MOR 类型的 hudi 表: CREATE TABLE t_test_001 ( ds BIGINT COMMENT 'ds', ut BIGINT COMMENT 'ut', pk BIGINT COMMENT 'pk', a0 BIGINT COMMENT 'a0', a 阅读全文

posted @ 2023-05-16 09:22 #蓝天 阅读(140) 评论(0) 推荐(0) 编辑

导航