摘要: 由于业务需要调研数据湖的使用,这里以Hudi0.10为例,使用的是CDH6.2.1的集群。 一、编译Hudi0.10 在centos7上编译,需要配置maven,安装scala环境和docker环境,使用集群环境为CDH6.2.1 maven配置 tar -zxvf apache-maven-3.6 阅读全文
posted @ 2021-12-14 17:47 Shydow 阅读(901) 评论(0) 推荐(0) 编辑
摘要: 一、SPARK SQL的执行流程 二、spark支持的join包括:inner join,left outer join,right outer join,full outer join,left semi join,left anti join spark的join是将两张表抽象为遍历表和查找 s 阅读全文
posted @ 2021-12-14 11:51 Shydow 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 在实际工作中统计uv时,一般会使用count(distinct userId)的方式去统计人数,但这样效率不高,假设你是统计多个维度的数据,当某天你想要上卷维度,此时又需要从原始层开始统计,如果数据量大的时候将会耗费很多时间,此时便可以使用最细粒度的聚合结果进行上卷统计,即需要自定义聚合函数进行统计 阅读全文
posted @ 2021-12-14 08:29 Shydow 阅读(1113) 评论(0) 推荐(0) 编辑