随笔分类 -  Flink

摘要:1.如果是csa(Cloudera Streaming Analytics)版本的高版本HBase 可以参考Cloudera官方例子,通过引入官方提供的flink-hbase来实现 <dependency> <groupId>org.apache.flink</groupId> <artifactI 阅读全文
posted @ 2022-01-12 22:16 tonglin0325 阅读(2485) 评论(0) 推荐(0) 编辑
摘要:Flink支持用户自定义 Functions,方法有2个 Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/user_defined_functions.html 1. 实现 MapFunction接口 c 阅读全文
posted @ 2020-12-16 17:28 tonglin0325 阅读(392) 评论(0) 推荐(0) 编辑
摘要:Flink有3中运行模式,分别是STREAMING,BATCH和AUTOMATIC Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/datastream_execution_mode.html 1.STR 阅读全文
posted @ 2020-12-14 16:27 tonglin0325 阅读(1745) 评论(0) 推荐(0) 编辑
摘要:Flink中的DataSet任务用于实现data sets的转换,data set通常是固定的数据源,比如可读文件,或者本地集合等。 Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/batch/ 使用Da 阅读全文
posted @ 2020-12-11 17:43 tonglin0325 阅读(325) 评论(0) 推荐(0) 编辑
摘要:Flink中的DataStream任务用于实现data streams的转换,data stream可以来自不同的数据源,比如消息队列,socket,文件等。 Ref https://ci.apache.org/projects/flink/flink-docs-stable/zh/dev/data 阅读全文
posted @ 2020-12-11 17:35 tonglin0325 阅读(295) 评论(0) 推荐(0) 编辑
摘要:Flink有以下几种Environment 1. 批处理Environment,ExecutionEnvironment ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 2.流处理Environme 阅读全文
posted @ 2020-12-10 20:06 tonglin0325 阅读(1617) 评论(0) 推荐(0) 编辑
摘要:在Flink任务中,需要加载外置配置参数到任务中,在Flink的开发文档中介绍了,Flink提供了一个名为 ParameterTool 的工具来解决这个问题 Flink开发文档: https://github.com/apache/flink/blob/master/docs/dev/applica 阅读全文
posted @ 2020-12-10 14:57 tonglin0325 阅读(1044) 评论(0) 推荐(1) 编辑
摘要:Flink集群部署的方式有以下几种,在本文中主要介绍Flink on yarn: Yarn Mesos Docker/Kubernetes Standalone 参考: https://www.slideshare.net/tillrohrmann/redesigning-apache-flinks 阅读全文
posted @ 2020-06-01 00:18 tonglin0325 阅读(664) 评论(0) 推荐(0) 编辑
摘要:Flink的kafka connector文档 https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/connectors/kafka.html Flink写入kafka时候需要实现序列化和反序列化 部分代码参考了 h 阅读全文
posted @ 2020-03-15 15:23 tonglin0325 阅读(1948) 评论(0) 推荐(0) 编辑
摘要:Flink也和和spark-shell类似的交互式开发模式 bin/start-scala-shell.sh yarn Starting Flink Shell: 20/03/14 14:34:07 INFO configuration.GlobalConfiguration: Loading co 阅读全文
posted @ 2020-03-14 14:52 tonglin0325 阅读(832) 评论(0) 推荐(0) 编辑
摘要:参考Flink官方example https://github.com/apache/flink/blob/master/flink-examples/flink-examples-streaming/src/main/java/org/apache/flink/streaming/examples 阅读全文
posted @ 2020-03-13 15:54 tonglin0325 阅读(337) 评论(0) 推荐(0) 编辑
摘要:参考Flink官方代码的example https://github.com/apache/flink/blob/master/flink-examples/flink-examples-streaming/src/main/java/org/apache/flink/streaming/examp 阅读全文
posted @ 2020-03-13 15:15 tonglin0325 阅读(1509) 评论(0) 推荐(0) 编辑
摘要:本来想cdh集成flink,但是我的cdh版本为5.16.2,参考了下面的issue可能cdh版本太低,至少要cdh6 https://github.com/pkeropen/flink-parcel/issues 进行独立安装 wget https://archive.apache.org/dis 阅读全文
posted @ 2020-03-10 22:16 tonglin0325 阅读(1915) 评论(0) 推荐(0) 编辑
摘要:使用flink来读写hudi有2种API,一个是Flink SQL API,另一个是DataStream API,参考 https://hudi.apache.org/cn/docs/flink-quick-start-guide 1.Flink SQL API 首先启动yarn session / 阅读全文
posted @ 2018-09-25 16:31 tonglin0325 阅读(374) 评论(0) 推荐(0) 编辑
摘要:1.Flink CDC介绍 Flink CDC提供了一系列connector,用于从其他数据源获取变更数据(change data capture) 官方文档 https://ververica.github.io/flink-cdc-connectors/release-2.3/content/a 阅读全文
posted @ 2016-05-22 19:53 tonglin0325 阅读(3192) 评论(0) 推荐(0) 编辑
摘要:Flink窗口(window)可以用于keyed streams和non-keyed streams 参考官方文档:https://nightlies.apache.org/flink/flink-docs-master/zh/docs/dev/datastream/operators/window 阅读全文
posted @ 2016-05-19 11:37 tonglin0325 阅读(306) 评论(0) 推荐(0) 编辑
摘要:1.开启checkpoint 默认情况下checkpoint是禁用的,需要手动进行开启,如下 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvir 阅读全文
posted @ 2016-05-18 12:53 tonglin0325 阅读(508) 评论(0) 推荐(0) 编辑
摘要:为了方便使用Flink对流式数据进行统一的读写,需要开发统一的source服务 1. kafka source 需要可配置的参数,参考flume的kafka source配置参数 https://flume.apache.org/FlumeUserGuide.html#kafka-source 定义 阅读全文
posted @ 2016-05-17 23:40 tonglin0325 阅读(458) 评论(0) 推荐(0) 编辑
摘要:Flink自带Exactly Once语义,对于支持事务的存储,可以做到数据的不重不丢。 当使用Flink来写hdfs的时候,因为hdfs文件只能在末尾进行append,如果要做到数据不重不丢,hdfs在2.7.0及其以上的版本中提供了truncate功能,可以根据valid-length长度对hd 阅读全文
posted @ 2016-04-01 19:59 tonglin0325 阅读(797) 评论(0) 推荐(0) 编辑
摘要:1.Flink CDC介绍 Flink CDC提供了一系列connector,用于从其他数据源获取变更数据(change data capture),其中的Flink MySQL CDC基于Debezium 官方文档 https://ververica.github.io/flink-cdc-con 阅读全文
posted @ 2016-03-25 21:58 tonglin0325 阅读(228) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示