Shydow

2022年1月9日

摘要：一、数据倾斜产生的原因 spark job中绝大多数task执行得非常快，但个别task执行缓慢。或者原本线上运行的job是正常，但在某天由于特殊原因报出OOM的异常，观察发现是因为代码本身造成的。一般来说，发生数据倾斜是在程序进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上阅读全文

posted @ 2022-01-09 22:54 Shydow 阅读(278) 评论(0) 推荐(0) 编辑

2022年1月5日

SeaTunnel（原WaterDrop）初探

摘要： todo 阅读全文

posted @ 2022-01-05 14:16 Shydow 阅读(219) 评论(0) 推荐(0) 编辑

2021年12月27日

hudi基本概念

摘要：一、Timeline Hudi 的核心是维护不同时间对表执行的所有操作的事件表，这有助于提供表的即时视图，同时还有效地支持按到达顺序进行数据检索。 Hudi 包含以下组件∶ 1）Instant action∶在表上的操作类型 2）Instant time∶ 操作开始的一个时间戳，该时间戳会按照开始时阅读全文

posted @ 2021-12-27 21:52 Shydow 阅读(1176) 评论(0) 推荐(0) 编辑

2021年12月26日

Hudi，Hive Sync，实现湖仓一体操作

摘要：一、将Hudi数据同步到Hive 1）需要将编译好的hudi-hadoop-mr-bundle-0.10.0.jar，放到对应的环境中，../CDH/jars 和 ../CDH/lib/hive/lib下面，具体步骤可以参考Flink1.3.1+Hudi0.10初探 cd /app/hudi-0.1 阅读全文

posted @ 2021-12-26 01:52 Shydow 阅读(1309) 评论(0) 推荐(0) 编辑

2021年12月25日

Spark2.4-cdh6.2.1集成hudi0.10初探

摘要：一、hudi编译 1）下载0.10版本的hudi，因为cdh6..2自带spark是2.4.0版本的，需要改下代码，注释掉整个if内容，否则会报错 2）将编译完成的hudi-spark-bundle_2.11-0.10.0.jar放到spark home的jars下 # 编译mvn clean pa 阅读全文

posted @ 2021-12-25 12:33 Shydow 阅读(1706) 评论(1) 推荐(0) 编辑

2021年12月23日

SPARK SQL运行原理

摘要：正常的SPARK SQL执行会先经过SQL Parser解析SQL，然后经过Catalyst优化器处理，最后到spark执行，其中包括以下几个重要的部分： SQL Parse：sql解析器将sql解析为抽象语法树，即Unresolved Logical Plan Analysis：利用Catalog 阅读全文

posted @ 2021-12-23 19:36 Shydow 阅读(207) 评论(0) 推荐(0) 编辑

SPARK中使用到的工具

摘要： 1）sc.textFile读取小文件时，调用的时hadoopFile，使用的是textInputFormat，除了使用sc.wholeTextFiles还可以自定义CombineFileInputFormat // sc.textFile调用的是 sc.hadoopFile，但是InputForma 阅读全文

posted @ 2021-12-23 10:19 Shydow 阅读(197) 评论(0) 推荐(0) 编辑

2021年12月18日

数仓中的全量表、增量表、快照表、切片表和拉链表区别和使用场景

摘要：一、全量表：df表，有无变化都要上报，只有一个分区或者没有分区，每次往全量表里面写数据都会覆盖之前的数据，不能记录数据的历史变化，只能截止到当前最新、全量的数据二、增量表：每天新增的数据和改变的数据都会存储在当日的分区中；增量表记录每次增加的量，只报变化量，无变化的不用报；增量表设计过程，假设以1 阅读全文

posted @ 2021-12-18 23:59 Shydow 阅读(16234) 评论(0) 推荐(2) 编辑

2021年12月17日

sparkListener配合钉钉使用

摘要：自定义Listener来实现对spark任务的运行状态的监控： package org.shydow.example import org.apache.spark.internal.Logging import org.apache.spark.scheduler.{JobResult, Spar 阅读全文

posted @ 2021-12-17 17:47 Shydow 阅读(92) 评论(0) 推荐(0) 编辑

2021年12月16日

Flink + Streamx实践

摘要：一、Streamx的编译和安装 1）编译阅读全文

posted @ 2021-12-16 16:58 Shydow 阅读(180) 评论(0) 推荐(0) 编辑

公告