Flink - 随笔分类 - tonglin0325

Flink学习笔记——读写HBase

摘要：1.如果是csa(Cloudera Streaming Analytics)版本的高版本HBase 可以参考Cloudera官方例子，通过引入官方提供的flink-hbase来实现 <dependency> <groupId>org.apache.flink</groupId> <artifactI 阅读全文

posted @ 2022-01-12 22:16 tonglin0325 阅读(2485) 评论(0) 推荐(0) 编辑

Flink学习笔记——用户自定义Functions

摘要：Flink支持用户自定义 Functions，方法有2个 Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/user_defined_functions.html 1. 实现 MapFunction接口 c 阅读全文

posted @ 2020-12-16 17:28 tonglin0325 阅读(392) 评论(0) 推荐(0) 编辑

Flink学习笔记——Execution Mode

摘要：Flink有3中运行模式，分别是STREAMING，BATCH和AUTOMATIC Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/datastream_execution_mode.html 1.STR 阅读全文

posted @ 2020-12-14 16:27 tonglin0325 阅读(1745) 评论(0) 推荐(0) 编辑

Flink学习笔记——DataSet API

摘要：Flink中的DataSet任务用于实现data sets的转换，data set通常是固定的数据源，比如可读文件，或者本地集合等。 Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/batch/ 使用Da 阅读全文

posted @ 2020-12-11 17:43 tonglin0325 阅读(325) 评论(0) 推荐(0) 编辑

Flink学习笔记——DataStream API

摘要：Flink中的DataStream任务用于实现data streams的转换，data stream可以来自不同的数据源，比如消息队列，socket，文件等。 Ref https://ci.apache.org/projects/flink/flink-docs-stable/zh/dev/data 阅读全文

posted @ 2020-12-11 17:35 tonglin0325 阅读(295) 评论(0) 推荐(0) 编辑

Flink学习笔记——Environment

摘要：Flink有以下几种Environment 1. 批处理Environment，ExecutionEnvironment ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 2.流处理Environme 阅读全文

posted @ 2020-12-10 20:06 tonglin0325 阅读(1617) 评论(0) 推荐(0) 编辑

Flink学习笔记——配置

摘要：在Flink任务中，需要加载外置配置参数到任务中，在Flink的开发文档中介绍了，Flink提供了一个名为 ParameterTool 的工具来解决这个问题 Flink开发文档: https://github.com/apache/flink/blob/master/docs/dev/applica 阅读全文

posted @ 2020-12-10 14:57 tonglin0325 阅读(1044) 评论(0) 推荐(1) 编辑

Flink学习笔记——Flink on YARN

摘要：Flink集群部署的方式有以下几种，在本文中主要介绍Flink on yarn： Yarn Mesos Docker/Kubernetes Standalone 参考： https://www.slideshare.net/tillrohrmann/redesigning-apache-flinks 阅读全文

posted @ 2020-06-01 00:18 tonglin0325 阅读(664) 评论(0) 推荐(0) 编辑

Flink学习笔记——读写kafka

摘要：Flink的kafka connector文档 https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/connectors/kafka.html Flink写入kafka时候需要实现序列化和反序列化部分代码参考了 h 阅读全文

posted @ 2020-03-15 15:23 tonglin0325 阅读(1948) 评论(0) 推荐(0) 编辑

Flink学习笔记——scala shell

摘要：Flink也和和spark-shell类似的交互式开发模式 bin/start-scala-shell.sh yarn Starting Flink Shell: 20/03/14 14:34:07 INFO configuration.GlobalConfiguration: Loading co 阅读全文

posted @ 2020-03-14 14:52 tonglin0325 阅读(832) 评论(0) 推荐(0) 编辑

Flink学习笔记——WordCount

摘要：参考Flink官方example https://github.com/apache/flink/blob/master/flink-examples/flink-examples-streaming/src/main/java/org/apache/flink/streaming/examples 阅读全文

posted @ 2020-03-13 15:54 tonglin0325 阅读(337) 评论(0) 推荐(0) 编辑

Flink学习笔记——SocketWindowWordCount

摘要：参考Flink官方代码的example https://github.com/apache/flink/blob/master/flink-examples/flink-examples-streaming/src/main/java/org/apache/flink/streaming/examp 阅读全文

posted @ 2020-03-13 15:15 tonglin0325 阅读(1509) 评论(0) 推荐(0) 编辑

Ubuntu16.04安装flink-1.10.0

摘要：本来想cdh集成flink，但是我的cdh版本为5.16.2，参考了下面的issue可能cdh版本太低，至少要cdh6 https://github.com/pkeropen/flink-parcel/issues 进行独立安装 wget https://archive.apache.org/dis 阅读全文

posted @ 2020-03-10 22:16 tonglin0325 阅读(1915) 评论(0) 推荐(0) 编辑

Flink学习笔记——读写hudi

摘要：使用flink来读写hudi有2种API，一个是Flink SQL API，另一个是DataStream API，参考 https://hudi.apache.org/cn/docs/flink-quick-start-guide 1.Flink SQL API 首先启动yarn session / 阅读全文

posted @ 2018-09-25 16:31 tonglin0325 阅读(374) 评论(0) 推荐(0) 编辑

Flink学习笔记——Flink Mongo CDC

摘要：1.Flink CDC介绍 Flink CDC提供了一系列connector，用于从其他数据源获取变更数据（change data capture）官方文档 https://ververica.github.io/flink-cdc-connectors/release-2.3/content/a 阅读全文

posted @ 2016-05-22 19:53 tonglin0325 阅读(3192) 评论(0) 推荐(0) 编辑

Flink学习笔记——窗口

摘要：Flink窗口（window）可以用于keyed streams和non-keyed streams 参考官方文档：https://nightlies.apache.org/flink/flink-docs-master/zh/docs/dev/datastream/operators/window 阅读全文

posted @ 2016-05-19 11:37 tonglin0325 阅读(306) 评论(0) 推荐(0) 编辑

Flink学习笔记——checkpoint

摘要：1.开启checkpoint 默认情况下checkpoint是禁用的，需要手动进行开启，如下 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvir 阅读全文

posted @ 2016-05-18 12:53 tonglin0325 阅读(508) 评论(0) 推荐(0) 编辑

Flink学习笔记——统一的source服务

摘要：为了方便使用Flink对流式数据进行统一的读写，需要开发统一的source服务 1. kafka source 需要可配置的参数，参考flume的kafka source配置参数 https://flume.apache.org/FlumeUserGuide.html#kafka-source 定义阅读全文

posted @ 2016-05-17 23:40 tonglin0325 阅读(458) 评论(0) 推荐(0) 编辑

Flink学习笔记——读写hdfs

摘要：Flink自带Exactly Once语义，对于支持事务的存储，可以做到数据的不重不丢。当使用Flink来写hdfs的时候，因为hdfs文件只能在末尾进行append，如果要做到数据不重不丢，hdfs在2.7.0及其以上的版本中提供了truncate功能，可以根据valid-length长度对hd 阅读全文

posted @ 2016-04-01 19:59 tonglin0325 阅读(797) 评论(0) 推荐(0) 编辑

Flink学习笔记——Flink MySQL CDC

摘要：1.Flink CDC介绍 Flink CDC提供了一系列connector，用于从其他数据源获取变更数据（change data capture），其中的Flink MySQL CDC基于Debezium 官方文档 https://ververica.github.io/flink-cdc-con 阅读全文

posted @ 2016-03-25 21:58 tonglin0325 阅读(228) 评论(0) 推荐(0) 编辑

tonglin0325.github.io

随笔分类 - Flink

公告