蓝天

上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 76 下一页

2023年5月19日 #

Hudi写语义保证

摘要: Hudi 为 Hadoop Upserts Deletes and Incrementals 的缩写,Incremental 即 Incremental pull,也就是增加拉取,是一种类似于消息队列的流式消费。 单写保证 upsert 保证不重复。 insert 如果开启了去重(hoodie.da 阅读全文

posted @ 2023-05-19 09:32 #蓝天 阅读(29) 评论(0) 推荐(0) 编辑

2023年5月18日 #

Hudi - Could not create payload for class

摘要: 设置错误的 payload: set `hoodie.datasource.write.payload.class`=`org.apache.hudi.common.model.PartialUpdateAvroPayloadX`; 在执行 insert 时报错: 2023-05-18 15:50: 阅读全文

posted @ 2023-05-18 16:11 #蓝天 阅读(266) 评论(0) 推荐(0) 编辑

2023年5月17日 #

flink之java.lang.NumberFormatException: For input string错误

摘要: 场景: 使用flink读取一张hudi表,将数据写入到另外一张hudi表。 错误栈: java.lang.NumberFormatException: For input string: "test_table" at java.lang.NumberFormatException.forInput 阅读全文

posted @ 2023-05-17 15:58 #蓝天 阅读(158) 评论(0) 推荐(0) 编辑

2023年5月16日 #

FlinkSQL和SparkSQL区别

摘要: 区别: FlinkSQL 的 insert 语句可只操作部分字段,而 SparkSQL 必须指定所有字段: spark-sql> create table t11 ( > ds BIGINT, > ts BIGINT, > pk BIGINT, > f0 BIGINT, > f1 BIGINT, > 阅读全文

posted @ 2023-05-16 16:51 #蓝天 阅读(107) 评论(0) 推荐(0) 编辑

Hudi的ro和rt表

摘要: 建表后并不会产生 ro 和 rt 两个表: spark-sql> create table hudi_mor_tbl ( > id int, > name string, > price double, > ts bigint > ) using hudi > tblproperties ( > t 阅读全文

posted @ 2023-05-16 16:29 #蓝天 阅读(293) 评论(0) 推荐(0) 编辑

Hudi表数据重复原因

摘要: 测试中,发现虽然显示设置为 upsert,且也按规范设置了 primaryKey、preCombineField,type 等,但查出的结果仍然存在重复。反复测试,重复的数据稳定为 2,且同一数据的一笔提交时间也保持不变。结果显示同一数据分区相同,但来自不同的 HDFS 文件。 相关Issue 这个 阅读全文

posted @ 2023-05-16 12:48 #蓝天 阅读(302) 评论(0) 推荐(0) 编辑

正确DROP掉MOR类型的HUDI表

摘要: 假设有一张下面这样的 MOR 类型的 hudi 表: CREATE TABLE t_test_001 ( ds BIGINT COMMENT 'ds', ut BIGINT COMMENT 'ut', pk BIGINT COMMENT 'pk', a0 BIGINT COMMENT 'a0', a 阅读全文

posted @ 2023-05-16 09:22 #蓝天 阅读(142) 评论(0) 推荐(0) 编辑

2023年5月11日 #

Flink MySQL CDC connector 使用注意事项

摘要: 注意事项 表要有主键 库名和表名不能有点号 是个 BUG,估计后续会修复。 表名不能有大写 也是个 BUG,估计后续会修复。 如果表名含有大写的字母,查询时日志可看到如下信息: java.util.concurrent.ExecutionException: java.io.FileNotFound 阅读全文

posted @ 2023-05-11 19:01 #蓝天 阅读(83) 评论(0) 推荐(0) 编辑

parquet is not a Parquet file (length is too low: 0)

摘要: 当执行 SparkSQL 遇到这个错误时,可能是因为对应分区的数据全被删除了,变成了空分区,解决办法是删除该分区。 hdfs://warehouse/test.db/t_test/20230511/eaf5f003-5658-4b19-b706-ac487cebad7e-0_3-10-79_2023 阅读全文

posted @ 2023-05-11 11:37 #蓝天 阅读(155) 评论(0) 推荐(0) 编辑

2023年5月10日 #

hudi的bucket.index相关配置

摘要: hudi的bucket.index相关配置的源码文件为 HoodieIndexConfig.java 。 通用配置 |配置项名|默认值|说明|引入版本| |:-|:-|:-|:-| |hoodie.index.type|默认值和引擎有关,Flink上默认值为FLINK_STATE,Spark上默认值 阅读全文

posted @ 2023-05-10 11:17 #蓝天 阅读(193) 评论(0) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 76 下一页

导航