随笔分类 -  Flink

摘要:Flink 问题总结 [TOC] 作业运行流程 新增的 operator 会被 transform 封装,例如 map(udf) OneInputTransformation,里面有序列化的 udf和operator配置(名称、uid、并行度等),并记录前一个 transformation 作为输入 阅读全文
posted @ 2020-05-16 15:25 justcodeit 阅读(4141) 评论(0) 推荐(0) 编辑
摘要:[TOC] Client提交任务 执行模式有:本地、远程Standalone等,下面只介绍yarn模式。 Yarn模式 : Job模式是每个flink job 单独在yarn上声明一个flink集群 Session模式会在集群中维护flink master,即一个yarn application m 阅读全文
posted @ 2019-03-21 21:49 justcodeit 阅读(4454) 评论(0) 推荐(1) 编辑
摘要:[TOC] 直播数字化运营 业务目标 全站观看直播总人数以及走势 房间直播总人数以及走势 热门直播房间及主播Top10,分类目主播Top10 第二部分的DAG如下,图标不能移动只能将就一下了。 结果写入Elasticsearch 写入Elasticsearch的代码都是一个样式,所以在这里统一放出。 阅读全文
posted @ 2019-03-06 12:21 justcodeit 阅读(1197) 评论(0) 推荐(2) 编辑
摘要:[TOC] 本案例参考自阿里云的 "视频直播解决方案之视频核心指标监控" 和 "视频直播解决方案之直播数字化运营" 。 基于Kafka + Flink + ELK + Redis实现视频直播数据的实时处理和可视化。 选型仅仅出于练习考虑,Logstash一般会换成flume或者直接用kafka。 模 阅读全文
posted @ 2019-03-06 12:19 justcodeit 阅读(2783) 评论(0) 推荐(0) 编辑
摘要:[TOC] 本文是原项目的一次重写。主要是用DataFrame代替原来的RDD,并在一些实现上进行优化,还有就是实时流计算改用Flink进行实现。 项目分为用户访问session模块、页面转跳转化率统计、热门商品离线统计和广告流量实时统计四部分组成。 业务需求 用户访问session 该模块主要是对 阅读全文
posted @ 2018-12-30 18:03 justcodeit 阅读(4520) 评论(0) 推荐(3) 编辑
摘要:[TOC] 1.wordcount 利用socket作为数据源,对输入的每行数据进行单词计数。计算频率为process time的每10秒一次,结果输出到terminal。 数据格式 2.双流警报EventTime 时间特征为event time,每1s更新一次watermark,watermark 阅读全文
posted @ 2018-12-22 22:25 justcodeit 阅读(866) 评论(0) 推荐(0) 编辑
摘要:Implementing Stateful Functions source function的stateful看官网,要加lock Declaring Keyed State at the RuntimeContext state可通过 rich functions 、Listcheckpoint 阅读全文
posted @ 2018-12-22 22:21 justcodeit 阅读(1383) 评论(0) 推荐(0) 编辑
摘要:[TOC] 本文API基于1.4以上 Configuring Time Characteristics 非key Stream的window operator并行度为1 Process Time 所有operator会按照系统时间来判断是否触发计算。如果作业是在9:15am开始的,且设置了1h的间隔 阅读全文
posted @ 2018-12-22 22:08 justcodeit 阅读(724) 评论(0) 推荐(0) 编辑
摘要:[TOC] 本文API基于Flink 1.4 注意,map、flatMap算子需要TypeInformation的隐式转换,即implicit val typeInfo = TypeInformation.of(classOf[map后的类型])。但更好的办法是 或 静态数据 从map到apply都 阅读全文
posted @ 2018-12-22 22:05 justcodeit 阅读(992) 评论(0) 推荐(0) 编辑
摘要:[TOC] System Architecture 分布式系统需要解决:分配和管理在集群的计算资源、处理配合、持久和可访问的数据存储、失败恢复。Fink专注分布式流处理。 Components of a Flink Setup JobManager :接受application,包含StreamGr 阅读全文
posted @ 2018-12-15 14:19 justcodeit 阅读(51640) 评论(4) 推荐(3) 编辑
摘要:[TOC] Introduction to Stateful Stream Processing Traditional Data Infrastructures 企业的应用,如enterprise resource planning (ERP) systems, customer relation 阅读全文
posted @ 2018-10-31 17:33 justcodeit 阅读(1411) 评论(0) 推荐(0) 编辑