随笔分类 - Flink
摘要:Flink中的状态 状态:在处理流数据时,算子(Operators)所维护的随着时间变化而持续或在特定时间点被查询的数据 无状态的算子任务:只需要观察每个独立事件,根据当前输入的数据直接转换输出结果 有状态的算子任务:除当前数据外,还需要一些其他数据来得到计算结果 状态的分类 算子状态(Operat
阅读全文
摘要:CEP 概念 定义 复合事件处理(Complex Event Processing,CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,
阅读全文
摘要:Table API和Flink SQL整体介绍 概念 Table API是一套内嵌在Java和Scala语言中的查询API,它允许我们以非常直观的方式,组合来自一些关系运算符的查询,比如select、filter和join Flink SQL,就是直接可以在代码中写SQL,来实现一些查询(Query
阅读全文
摘要:DataStream流处理算子 Source算子(数据读入) Flink可以使用StreamExecutionEnvironment.addSource(source) 来为我们的程序添加数据来源 基于本地集合的source DataStream<String> words = env.fromEl
阅读全文
摘要:YARN模式 概念 Flink提供了两种在yarn上运行的模式,分别为Session-Cluster和Per-Job-Cluster模式 Session-cluster模式 Session-Cluster模式需要先启动集群,然后再提交作业,接着会向yarn申请一块空间后,资源永远保持不变,如果资源满
阅读全文
摘要:开发环境编写WordCount pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLS
阅读全文
摘要:集群安装 Standalone模式 安装 解压缩 [user@hadoop102 software]$ tar -zxvf flink-1.10.1-bin-scala_2.12.tgz -C /opt/module/ 修改flink/conf/flink-conf.yaml文件 jobmanage
阅读全文
摘要:Flink概述 Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算 Flink特点 事件驱动(Event-driven) 事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作 比较典型的就是以kafka
阅读全文