众所周知,RDD只会保留血缘关系,不存储计算结果。如果想要让计算结果持久化存储,那就要引入cache和persist方法。 提前感受变化 禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac Read More
posted @ 2023-04-20 14:01 MrSponge Views(15) Comments(0) Diggs(0) Edit
介绍 val fileRDD: RDD[String] = sc.textFile("input/1.txt") println(fileRDD.toDebugString) println(" ") val wordRDD: RDD[String] = fileRDD.flatMap(_.spli Read More
posted @ 2023-04-20 13:55 MrSponge Views(49) Comments(0) Diggs(0) Edit
Spark的算子分为两大类:transform(转换算子)和action(行动算子) transform算子:map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy、filter、sample、distinct、coalesce、r Read More
posted @ 2023-04-20 13:45 MrSponge Views(242) Comments(2) Diggs(0) Edit
题目需求 根据用户登录明细表(user_login_detail),求出平台同时在线最多的人数。 结果如下: | cn | | : : | | 7 | 需要用到的表: 用户登录明细表:user_login_detail | user_id(用户id) | ip_address(ip地址) | log Read More
posted @ 2023-03-06 11:13 MrSponge Views(476) Comments(0) Diggs(0) Edit
Hive Hive中文手册 思考: Hive的架构原理 Hive和数据库的比较 几种访问方式的不同 1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张表,并提供类SQL查询功能。 Hive本质是将HQL转换成MapReduce Hive处理的数据存储 Read More
posted @ 2023-03-05 15:26 MrSponge Views(98) Comments(0) Diggs(0) Edit
拉链表 什么是拉链表? ​ 拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效的开始日期。(就是在原来表的基础上,加上创建时间/开始时间/操作时间/结束时间,能保证看出记录的变化过程就行了) 如果当前消息至今有效,在生效结束日期中填入一个极大值( Read More
posted @ 2023-02-24 21:03 MrSponge Views(128) Comments(0) Diggs(0) Edit
目录SQL 一:查询累积销量排名第二的商品SQL 二:查询至少连续三天下单的用户SQL 三:查询各品类销售商品的种类数及销量最高的商品SQL 四:查询用户的累计消费金额及VIP等级SQL 五:查询首次下单后第二天连续下单的用户比率SQL 六:每个商品销售首年的年份、销售数量和销售金额SQL 七:筛选 Read More
posted @ 2023-02-19 22:57 MrSponge Views(2167) Comments(3) Diggs(0) Edit
在Flink中,水位线可大致分为乱序流水位线和有序流水位线。实际开发中用的最多的就是乱序流水位线 在此之前,你已了解Flink在分布式环境下Watermark的传播方式 Flink官方提供的设置水位线的方法有Source之前和Source之后,这里主要介绍Source之后的方法 默认方法 通过ass Read More
posted @ 2023-02-19 11:39 MrSponge Views(507) Comments(0) Diggs(0) Edit
首先要知道Flume中的Event是由Header + Body组成的。 Flume支持在运行时对Event进行修改或丢弃,可以通过拦截器来实现。Flume里面的拦截器是实现了 org.apache.flume.interceptor.Interceptor 接口的类。拦截器可以根据开发者的意图随意 Read More
posted @ 2023-02-18 21:45 MrSponge Views(170) Comments(0) Diggs(0) Edit
Shell是一个命令解释器,它接收应用程序/用户命令,然后调用操作系统内核。 Shell还是一个功能相当强大的编程语言,易编写、易调试、灵活性强。 https://blog.csdn.net/Jackson00709/article/details/106086756 Shell概述 shell是一 Read More
posted @ 2023-02-15 16:54 MrSponge Views(39) Comments(0) Diggs(0) Edit