spark - 随笔分类 - 岚天逸见

Hudi表创建时HDFS上的变化

摘要：SparkSQL 建 Hudi 表语句： ```sql CREATE TABLE t71 ( ds BIGINT, ut STRING, pk BIGINT, f0 BIGINT, f1 BIGINT, f2 BIGINT, f3 BIGINT, f4 BIGINT ) USING hudi PAR 阅读全文

posted @ 2023-05-31 17:26 岚天逸见阅读(200) 评论(0) 推荐(0)

Hudi - Could not create payload for class

摘要：设置错误的 payload： set `hoodie.datasource.write.payload.class`=`org.apache.hudi.common.model.PartialUpdateAvroPayloadX`; 在执行 insert 时报错： 2023-05-18 15:50: 阅读全文

posted @ 2023-05-18 16:11 岚天逸见阅读(349) 评论(0) 推荐(0)

flink之java.lang.NumberFormatException: For input string错误

摘要：场景：使用flink读取一张hudi表，将数据写入到另外一张hudi表。错误栈： java.lang.NumberFormatException: For input string: "test_table" at java.lang.NumberFormatException.forInput 阅读全文

posted @ 2023-05-17 15:58 岚天逸见阅读(256) 评论(0) 推荐(0)

FlinkSQL和SparkSQL区别

摘要：区别： FlinkSQL 的 insert 语句可只操作部分字段，而 SparkSQL 必须指定所有字段： spark-sql> create table t11 ( > ds BIGINT, > ts BIGINT, > pk BIGINT, > f0 BIGINT, > f1 BIGINT, > 阅读全文

posted @ 2023-05-16 16:51 岚天逸见阅读(174) 评论(0) 推荐(0)

Hudi的ro和rt表

摘要：建表后并不会产生 ro 和 rt 两个表： spark-sql> create table hudi_mor_tbl ( > id int, > name string, > price double, > ts bigint > ) using hudi > tblproperties ( > t 阅读全文

posted @ 2023-05-16 16:29 岚天逸见阅读(382) 评论(0) 推荐(0)

Hudi表数据重复原因

摘要：测试中，发现虽然显示设置为 upsert，且也按规范设置了 primaryKey、preCombineField，type 等，但查出的结果仍然存在重复。反复测试，重复的数据稳定为 2，且同一数据的一笔提交时间也保持不变。结果显示同一数据分区相同，但来自不同的 HDFS 文件。相关Issue 这个阅读全文

posted @ 2023-05-16 12:48 岚天逸见阅读(420) 评论(0) 推荐(0)

正确DROP掉MOR类型的HUDI表

摘要：假设有一张下面这样的 MOR 类型的 hudi 表： CREATE TABLE t_test_001 ( ds BIGINT COMMENT 'ds', ut BIGINT COMMENT 'ut', pk BIGINT COMMENT 'pk', a0 BIGINT COMMENT 'a0', a 阅读全文

posted @ 2023-05-16 09:22 岚天逸见阅读(187) 评论(0) 推荐(0)

Flink MySQL CDC connector 使用注意事项

摘要：注意事项表要有主键库名和表名不能有点号是个 BUG，估计后续会修复。表名不能有大写也是个 BUG，估计后续会修复。如果表名含有大写的字母，查询时日志可看到如下信息： java.util.concurrent.ExecutionException: java.io.FileNotFound 阅读全文

posted @ 2023-05-11 19:01 岚天逸见阅读(105) 评论(0) 推荐(0)

parquet is not a Parquet file (length is too low: 0)

摘要：当执行 SparkSQL 遇到这个错误时，可能是因为对应分区的数据全被删除了，变成了空分区，解决办法是删除该分区。 hdfs://warehouse/test.db/t_test/20230511/eaf5f003-5658-4b19-b706-ac487cebad7e-0_3-10-79_2023 阅读全文

posted @ 2023-05-11 11:37 岚天逸见阅读(209) 评论(0) 推荐(0)

hudi的bucket.index相关配置

摘要：hudi的bucket.index相关配置的源码文件为 HoodieIndexConfig.java 。通用配置 |配置项名|默认值|说明|引入版本| |:-|:-|:-|:-| |hoodie.index.type|默认值和引擎有关，Flink上默认值为FLINK_STATE，Spark上默认值阅读全文

posted @ 2023-05-10 11:17 岚天逸见阅读(292) 评论(0) 推荐(0)

Hudi的Index类型

摘要：Hudi 的索引是 hoodiekey 到文件组（File Group）或者文件 ID（File ID）的映射，hoodiekey 由 recordkey 和 partitionpath 两部分组成。定义在文件 HoodieIndex.java 中。分一下几种： |类型|说明| |:-|:-| 阅读全文

posted @ 2023-05-10 11:16 岚天逸见阅读(180) 评论(0) 推荐(0)

Hudi学习笔记5 - Hudi配置分析（1）

摘要：Hudi 官方配置文档：https://hudi.apache.org/docs/configurations，从源码分析可以看到配置项 hoodie.payload.ordering.field 已经废弃，取而代之的是 hoodie.datasource.write.precombine.fiel 阅读全文

posted @ 2023-05-08 15:49 岚天逸见阅读(335) 评论(0) 推荐(0)

Hudi学习笔记4 - Hudi配置之Spark配置

摘要：Spark Datasource Configs 读配置 |配置项|是否必须|默认值|配置说明| |:-|:-|:-|:-| |as.of.instant|Y|N/A|0.9.0 版本新增，时间旅行查询从哪儿开始，有两种格式的值：yyyyMMddHHmmss 和 yyyy-MM-dd HH:mm:s 阅读全文

posted @ 2023-05-08 15:42 岚天逸见阅读(282) 评论(0) 推荐(0)

Hudi学习笔记2 - Hudi配置

摘要：https://hudi.apache.org/docs/configurations Hudi配置分类 Spark Datasource Configs Spark Datasource 的配置。 Flink Sql Configs Flink SQL source/sink connectors 阅读全文

posted @ 2023-05-06 17:03 岚天逸见阅读(178) 评论(2) 推荐(0)

upsert部分hudi表字段报错“Expected table’s schema”

摘要：当 insert into 一个 hudi 表时，如果只指定了部分字段，则运行时报错“Expected table’s schema”： java.sql.SQLException: java.util.concurrent.ExecutionException: java.lang.Runtime 阅读全文

posted @ 2023-04-27 21:36 岚天逸见阅读(127) 评论(0) 推荐(0)

Yarn application has already exited with state FINISHED

摘要：如果在运行spark-sql时遇到如下这样的错误，可能是因为yarn-site.xml中的配置项yarn.nodemanager.vmem-pmem-ratio值偏小，它的默认值为2.1，可以尝试改大一点再试。ERROR cluster.YarnClientSche... 阅读全文

posted @ 2016-10-13 11:01 岚天逸见阅读(966) 评论(0) 推荐(0)

Yarn上运行spark-1.6.0

摘要：目录目录 11. 约定 12. 安装Scala 12.1. 下载 22.2. 安装 22.3. 设置环境变量 23. 安装Spark 23.1. 下载 23.2. 安装 23.3. 配置 33.3.1. 修改conf/spark-env.sh 34. 启动Spark ... 阅读全文

posted @ 2016-02-17 12:52 岚天逸见阅读(715) 评论(0) 推荐(0)

岚天逸见

随笔分类 - spark