随笔分类 - Flink
摘要:Flink 问题总结 [TOC] 作业运行流程 新增的 operator 会被 transform 封装,例如 map(udf) OneInputTransformation,里面有序列化的 udf和operator配置(名称、uid、并行度等),并记录前一个 transformation 作为输入
阅读全文
摘要:[TOC] Client提交任务 执行模式有:本地、远程Standalone等,下面只介绍yarn模式。 Yarn模式 : Job模式是每个flink job 单独在yarn上声明一个flink集群 Session模式会在集群中维护flink master,即一个yarn application m
阅读全文
摘要:[TOC] 直播数字化运营 业务目标 全站观看直播总人数以及走势 房间直播总人数以及走势 热门直播房间及主播Top10,分类目主播Top10 第二部分的DAG如下,图标不能移动只能将就一下了。 结果写入Elasticsearch 写入Elasticsearch的代码都是一个样式,所以在这里统一放出。
阅读全文
摘要:[TOC] 本案例参考自阿里云的 "视频直播解决方案之视频核心指标监控" 和 "视频直播解决方案之直播数字化运营" 。 基于Kafka + Flink + ELK + Redis实现视频直播数据的实时处理和可视化。 选型仅仅出于练习考虑,Logstash一般会换成flume或者直接用kafka。 模
阅读全文
摘要:[TOC] 本文是原项目的一次重写。主要是用DataFrame代替原来的RDD,并在一些实现上进行优化,还有就是实时流计算改用Flink进行实现。 项目分为用户访问session模块、页面转跳转化率统计、热门商品离线统计和广告流量实时统计四部分组成。 业务需求 用户访问session 该模块主要是对
阅读全文
摘要:[TOC] 1.wordcount 利用socket作为数据源,对输入的每行数据进行单词计数。计算频率为process time的每10秒一次,结果输出到terminal。 数据格式 2.双流警报EventTime 时间特征为event time,每1s更新一次watermark,watermark
阅读全文
摘要:Implementing Stateful Functions source function的stateful看官网,要加lock Declaring Keyed State at the RuntimeContext state可通过 rich functions 、Listcheckpoint
阅读全文
摘要:[TOC] 本文API基于1.4以上 Configuring Time Characteristics 非key Stream的window operator并行度为1 Process Time 所有operator会按照系统时间来判断是否触发计算。如果作业是在9:15am开始的,且设置了1h的间隔
阅读全文
摘要:[TOC] 本文API基于Flink 1.4 注意,map、flatMap算子需要TypeInformation的隐式转换,即implicit val typeInfo = TypeInformation.of(classOf[map后的类型])。但更好的办法是 或 静态数据 从map到apply都
阅读全文
摘要:[TOC] System Architecture 分布式系统需要解决:分配和管理在集群的计算资源、处理配合、持久和可访问的数据存储、失败恢复。Fink专注分布式流处理。 Components of a Flink Setup JobManager :接受application,包含StreamGr
阅读全文
摘要:[TOC] Introduction to Stateful Stream Processing Traditional Data Infrastructures 企业的应用,如enterprise resource planning (ERP) systems, customer relation
阅读全文