2021 年 12月 14 日随笔档案 - Shydow

2021年12月14日

Flink1.3.1+Hudi0.10初探

摘要：由于业务需要调研数据湖的使用，这里以Hudi0.10为例，使用的是CDH6.2.1的集群。一、编译Hudi0.10 在centos7上编译，需要配置maven，安装scala环境和docker环境，使用集群环境为CDH6.2.1 maven配置 tar -zxvf apache-maven-3.6 阅读全文

posted @ 2021-12-14 17:47 Shydow 阅读(914) 评论(0) 推荐(0) 编辑

SPARK SQL join实现

摘要：一、SPARK SQL的执行流程二、spark支持的join包括：inner join，left outer join，right outer join，full outer join，left semi join，left anti join spark的join是将两张表抽象为遍历表和查找 s 阅读全文

posted @ 2021-12-14 11:51 Shydow 阅读(418) 评论(0) 推荐(0) 编辑

SPARK SQL中自定义udf，udaf函数统计uv（使用bitmap）

摘要：在实际工作中统计uv时，一般会使用count(distinct userId)的方式去统计人数，但这样效率不高，假设你是统计多个维度的数据，当某天你想要上卷维度，此时又需要从原始层开始统计，如果数据量大的时候将会耗费很多时间，此时便可以使用最细粒度的聚合结果进行上卷统计，即需要自定义聚合函数进行统计阅读全文

posted @ 2021-12-14 08:29 Shydow 阅读(1186) 评论(0) 推荐(0) 编辑

Shydow

公告