01 2023 档案
摘要:用DATEDIFF简单的实现计算用户的平均次日留存率 DATEDIFF函数介绍 用于计算计算两个DATE,DATETIME或TIMESTAMP值之间的天数 # 用法 DATEDIFF(date1,date2) #例子 mysql> SELECT DATEDIFF('2023-01-30','2023
阅读全文
摘要:左、内、右连接可以实现多表横向合并,而UNION关键字则可以实现多表纵向合并 UNION:实现多表纵向合并(默认含去重功能) <sql查询语句1> UNION <sql查询语句2> UNION ... UNION <sql查询语句n> UNION ALL:实现多表纵向合并(不含去重功能) <sql查
阅读全文
摘要:SparkCore 是整个Spark 框架的核心,其他都是在此基础上扩展API 第一步,打开IDEA,新建Maven项目 第二步,增加 Scala 插件(前提:一配置好scala环境) 注意版本,Spark3.0 版本最好用 Scala2.12 版本(文本末尾有scala 环境安装包) 第三步,添加
阅读全文
摘要:**Timeout of 60000ms expired before the position for partition tv_log-1 could be determined** 大概意思:消费kafka,在某个分区连接超时超时了60000ms 这个时候首先要检查:C:\Windows\Sy
阅读全文
摘要:大致意思:BigDecimal类型不能直接强行转换成Float类型 当我用FlinkCDC监听数据库,对获取到的数据进行转换计算时,发生了这个报错,下面是我的代码 Float rating= (Float) valueJson.get("rating"); 解决方法:BigDecimal -> St
阅读全文
摘要:Flink CDC 1、CDC 简介 1.1 什么是CDC CDC 是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库 的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录 下来,写入到消息中间件中以供其他服务进行订阅及消费。
阅读全文
摘要:Flink安装部署 local本地模式-了解 原理 操作 1.下载安装包 https://archive.apache.org/dist/flink/ 2.上传flink-1.13.1-bin-scala_2.12.tgz到node1的指定目录 3.解压 tar -zxvf flink-1.13.1
阅读全文
摘要:State-理解原理即可 Flink中状态的自动管理 之前写的Flink代码中其实已经做好了状态自动管理,如 发送hello ,得出(hello,1) 再发送hello ,得出(hello,2) 说明Flink已经自动的将当前数据和历史状态/历史结果进行了聚合,做到了状态的自动管理 在实际开发中绝大
阅读全文
摘要:合流 1、概念 将不同流中的数据汇聚在一起,然后可以进行一个统计等相关操作。 2、基本合流操作 union和connect union算子可以合并多个同类型的数据流,并生成同类型的数据流,即可以将多个DataStream[T]合并为一个新的DataStream[T]。数据将按照先进先出(First
阅读全文
摘要:流处理说明 有边界的流bounded stream:批数据 无边界的流unbounded stream:真正的流数据 Source 基于集合 package com.pzb.source; import org.apache.flink.api.common.RuntimeExecutionMode
阅读全文
摘要:Sink 1. Sink输出 1.1 预定义Sink 1.1.1 基于控制台和文件的Sink API 1.ds.print 直接输出到控制台 2.ds.printToErr() 直接输出到控制台,用红色 3.ds.writeAsText("本地/HDFS的path",WriteMode.OVERWR
阅读全文
摘要:Time/Watermarker 时间分类 EventTime的重要性和Watermarker的引入 代码演示-开发版-掌握 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/event_timestamps_water
阅读全文
摘要:流处理说明 Transformation 基本操作 map/flatMap/filter/keyBy/sum/reduce... 和之前学习的Scala/Spark里面的一样的意思 map方法、flatmap方法、keyBy方法、reduce方法 map方法 map:将函数作用在集合中的每一个元素上
阅读全文
摘要:Flink高级api 1. Flink四大基石 Flink之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、Time、Window。 1.1 Checkpoint 这是Flink最重要的一个特性。 Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快
阅读全文
摘要:Process Flink 提供了 8 个不同的处理函数: (1) ProcessFunction 最基本的处理函数,基于DataStream 直接调用.process()时作为参数传入。 (2) KeyedProcessFunction 对流按键分区后的处理函数,基于 KeyedStream 调用
阅读全文
摘要:数据表的操作 创建数据表时,要先 use 数据库名;来确定要操作的数据库。 创建数据表 CREATE [TEMPORARY] TABLE [IF NOT EXISTS] 表名 (字段名字段类型[字段属性]...)[表选项]; 表选项:DEFAULT CHARSET=utf8 表示默认表的编码格式为u
阅读全文
摘要:单表查询 SELECT [DISTINCT] *|<字段名1,字段名2,字段名3,...> FROM <表名> [WHERE <条件查询表达式1>] [GROUP BY <字段名> [HAVING <条件表达式2>]] [ORDER BY <字段名> [ASC|DESC]] [LIMIT [OFFS
阅读全文
摘要:ClickHouse入门 版本21.7.3.14 ClickHouse是列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP)。 ClickHouse对函数是大小写敏感的,不管是什么操作,还是区分大小写好点 官方文档 1、ClickHouse的特点 列式存储 对于列的聚合,计数,求和等统计
阅读全文
摘要:创建Django 项目前置条件:已完成Python环境和PyCharm安装 Django的安装和项目的创建 | 在命令行输入pip 命令安装 pip install -i https://pypi.douban.com/simple django 或 指定相应的django版本: pip insta
阅读全文