Flink菜鸟 - 博客园

2019年7月17日

摘要：今天看到有小伙伴在问，就想着自己实现一下。问题： Flink FileSink根据输入数据指定输出位置，比如讲对应日期的数据输出到对应目录目前flink 对与输出到文件有两种实现（write 算子不算，只能指定目录）：Rolling File Sink 和 Streaming File Sink 阅读全文

posted @ 2019-07-17 11:07 Flink菜鸟阅读(8187) 评论(0) 推荐(0) 编辑

2019年7月4日

【翻译】Flink Joining

摘要：本文来自官网翻译： Joining Window Join（窗口join） Tumbling Window Join（翻滚窗口join） Sliding Window Join（滑动窗口join） Session Window Join（会话窗口join） Interval Join（时间间隔joi 阅读全文

posted @ 2019-07-04 11:24 Flink菜鸟阅读(768) 评论(0) 推荐(0) 编辑

2019年6月28日

Flink 异步IO访问外部数据（mysql篇）

摘要：接上篇：【翻译】Flink 异步I / O访问外部数据最近看了大佬的博客，突然想起Async I/O方式是Blink 推给社区的一大重要功能，可以使用异步的方式获取外部数据，想着自己实现以下，项目上用的时候，可以不用现去找了。最开始想用scala 实现一个读取 hbase数据的demo，参照官网阅读全文

posted @ 2019-06-28 18:29 Flink菜鸟阅读(12013) 评论(0) 推荐(0) 编辑

2019年6月25日

【翻译】Flink 异步I / O访问外部数据

摘要：本文来自官网翻译： Asynchronous I/O for External Data Access 需要异步I / O操作先决条件异步I / O API 超时处理结果顺序活动时间容错保证实施技巧警告超时处理结果顺序活动时间容错保证实施技巧警告本页介绍了Flink AP 阅读全文

posted @ 2019-06-25 10:22 Flink菜鸟阅读(1357) 评论(0) 推荐(0) 编辑

2019年6月24日

Flink 自定义source和sink，获取kafka的key，输出指定key

摘要： 20190905更新沙雕了，可以用 JSONKeyValueDeserializationSchema，接收ObjectNode的数据，如果有key，会放在ObjectNode中 Flink 的 FlinkKafkaConsumer、FlinkKafkaProducer，在消费、生成kafka 数阅读全文

posted @ 2019-06-24 14:01 Flink菜鸟阅读(7951) 评论(0) 推荐(0) 编辑

2019年5月24日

Flink统计当日的UV、PV

摘要： flink 计算当日 UV、PV，翻动窗口、trigger触发器阅读全文

posted @ 2019-05-24 20:45 Flink菜鸟阅读(15172) 评论(9) 推荐(0) 编辑

2019年4月11日

flink引出的kafka不同版本的兼容性

摘要：参考：官网协议介绍：http://kafka.apache.org/protocol.html#The_Messages_Fetch kafka协议兼容性 http://www.cnblogs.com/huxi2b/p/6784795.html 最近在使用flink的时候，在flink的官网对fl 阅读全文

posted @ 2019-04-11 17:28 Flink菜鸟阅读(12591) 评论(0) 推荐(0) 编辑

2019年4月1日

flink 读取kafka 数据，partition分配

摘要：每个并发有个编号，只会读取kafka partition % 总并发数 == 编号的分区如： 6 分区， 4个并发分区： p0 p1 p2 p3 p4 p5 并发： 0 1 2 3 分区 p0 分配给并发 0 ： 0 % 4 = 0 分区 p1分配给并发1： 1 % 4 = 1 分区 p2分配阅读全文

posted @ 2019-04-01 15:03 Flink菜鸟阅读(5443) 评论(0) 推荐(1) 编辑

2019年3月21日

Flink 报错 "Could not find a suitable table factory for 'org.apache.flink.table.factories.StreamTableSourceFactory' in the classpath"

摘要：先上代码：直接上报错信息：报错信息是找不到合适的table factory，查询报错类TableFactoryService.scala 源码214行（报错信息中报错位置）主要是对比 requestedContext 中的必需属性，在 properties 中是否有 requestedCont 阅读全文

posted @ 2019-03-21 10:43 Flink菜鸟阅读(13732) 评论(0) 推荐(2) 编辑

2019年3月6日

flume接收http请求，并将数据写到kafka

摘要： flume接收http请求，并将数据写到kafka，spark消费kafka的数据。是数据采集的经典框架。直接上flume的配置： source : http channel : file sink : kafka 有了flume的配置，下面启动flume：启动之后，就可以发http请求了。 h 阅读全文

posted @ 2019-03-06 16:12 Flink菜鸟阅读(4794) 评论(0) 推荐(0) 编辑