随笔分类 - Flink
摘要:1.如果是csa(Cloudera Streaming Analytics)版本的高版本HBase 可以参考Cloudera官方例子,通过引入官方提供的flink-hbase来实现 <dependency> <groupId>org.apache.flink</groupId> <artifactI
阅读全文
摘要:Flink支持用户自定义 Functions,方法有2个 Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/user_defined_functions.html 1. 实现 MapFunction接口 c
阅读全文
摘要:Flink有3中运行模式,分别是STREAMING,BATCH和AUTOMATIC Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/datastream_execution_mode.html 1.STR
阅读全文
摘要:Flink中的DataSet任务用于实现data sets的转换,data set通常是固定的数据源,比如可读文件,或者本地集合等。 Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/batch/ 使用Da
阅读全文
摘要:Flink中的DataStream任务用于实现data streams的转换,data stream可以来自不同的数据源,比如消息队列,socket,文件等。 Ref https://ci.apache.org/projects/flink/flink-docs-stable/zh/dev/data
阅读全文
摘要:Flink有以下几种Environment 1. 批处理Environment,ExecutionEnvironment ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 2.流处理Environme
阅读全文
摘要:在Flink任务中,需要加载外置配置参数到任务中,在Flink的开发文档中介绍了,Flink提供了一个名为 ParameterTool 的工具来解决这个问题 Flink开发文档: https://github.com/apache/flink/blob/master/docs/dev/applica
阅读全文
摘要:Flink集群部署的方式有以下几种,在本文中主要介绍Flink on yarn: Yarn Mesos Docker/Kubernetes Standalone 参考: https://www.slideshare.net/tillrohrmann/redesigning-apache-flinks
阅读全文
摘要:Flink的kafka connector文档 https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/connectors/kafka.html Flink写入kafka时候需要实现序列化和反序列化 部分代码参考了 h
阅读全文
摘要:Flink也和和spark-shell类似的交互式开发模式 bin/start-scala-shell.sh yarn Starting Flink Shell: 20/03/14 14:34:07 INFO configuration.GlobalConfiguration: Loading co
阅读全文
摘要:参考Flink官方example https://github.com/apache/flink/blob/master/flink-examples/flink-examples-streaming/src/main/java/org/apache/flink/streaming/examples
阅读全文
摘要:参考Flink官方代码的example https://github.com/apache/flink/blob/master/flink-examples/flink-examples-streaming/src/main/java/org/apache/flink/streaming/examp
阅读全文
摘要:本来想cdh集成flink,但是我的cdh版本为5.16.2,参考了下面的issue可能cdh版本太低,至少要cdh6 https://github.com/pkeropen/flink-parcel/issues 进行独立安装 wget https://archive.apache.org/dis
阅读全文
摘要:使用flink来读写hudi有2种API,一个是Flink SQL API,另一个是DataStream API,参考 https://hudi.apache.org/cn/docs/flink-quick-start-guide 1.Flink SQL API 首先启动yarn session /
阅读全文
摘要:1.Flink CDC介绍 Flink CDC提供了一系列connector,用于从其他数据源获取变更数据(change data capture) 官方文档 https://ververica.github.io/flink-cdc-connectors/release-2.3/content/a
阅读全文
摘要:Flink窗口(window)可以用于keyed streams和non-keyed streams 参考官方文档:https://nightlies.apache.org/flink/flink-docs-master/zh/docs/dev/datastream/operators/window
阅读全文
摘要:1.开启checkpoint 默认情况下checkpoint是禁用的,需要手动进行开启,如下 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvir
阅读全文
摘要:为了方便使用Flink对流式数据进行统一的读写,需要开发统一的source服务 1. kafka source 需要可配置的参数,参考flume的kafka source配置参数 https://flume.apache.org/FlumeUserGuide.html#kafka-source 定义
阅读全文
摘要:Flink自带Exactly Once语义,对于支持事务的存储,可以做到数据的不重不丢。 当使用Flink来写hdfs的时候,因为hdfs文件只能在末尾进行append,如果要做到数据不重不丢,hdfs在2.7.0及其以上的版本中提供了truncate功能,可以根据valid-length长度对hd
阅读全文
摘要:1.Flink CDC介绍 Flink CDC提供了一系列connector,用于从其他数据源获取变更数据(change data capture),其中的Flink MySQL CDC基于Debezium 官方文档 https://ververica.github.io/flink-cdc-con
阅读全文