随笔分类 -  201_Flink

摘要:[记录点滴] Spark迁移到Flink的几个点 0x00 三个问题点 有三个Spark API需要找到对应的Flink API或者替代方法 reduceByKeyAndWindow 函数reduceByKeyAndWindow(+,-,Seconds(3s),seconds(2)) 设计理念是,当 阅读全文
posted @ 2020-09-04 17:46 罗西的思考 阅读(420) 评论(0) 推荐(0) 编辑
摘要:Flink的Slot概念大家应该都听说过,但是可能很多朋友还不甚了解其中细节,比如具体Slot究竟代表什么?在代码中如何实现?Slot在生成执行图、调度、分配资源、部署、执行阶段分别起到什么作用?本文和上文将带领大家一起分析源码,为你揭开Slot背后的机理。 阅读全文
posted @ 2020-09-04 17:00 罗西的思考 阅读(1261) 评论(1) 推荐(2) 编辑
摘要:Flink的Slot概念大家应该都听说过,但是可能很多朋友还不甚了解其中细节,比如具体Slot究竟代表什么?在代码中如何实现?Slot在生成执行图、调度、分配资源、部署、执行阶段分别起到什么作用?本文和下文将带领大家一起分析源码,为你揭开Slot背后的机理。 阅读全文
posted @ 2020-08-24 15:56 罗西的思考 阅读(7020) 评论(0) 推荐(1) 编辑
摘要:在分析Alink源码的时候,发现Alink使用了 Java Stream,又去Flink源码搜索,发现Flink也有大量使用。一时兴起,想看看 Java Stream 和 Flink 这种流处理框架的异同点。当然这种比较还是注重于理念和设计思路上的。因为就应用领域和复杂程度来说, Java Stream 和 Flink 属于数量级别的差距。 阅读全文
posted @ 2020-08-17 08:17 罗西的思考 阅读(1599) 评论(0) 推荐(1) 编辑
摘要:本文涉及到Flink SQL UDAF,Window 状态管理等部分,希望能起到抛砖引玉的作用,让大家可以借此深入了解这个领域。 阅读全文
posted @ 2020-08-12 07:50 罗西的思考 阅读(1200) 评论(0) 推荐(0) 编辑
摘要:Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和下文将带领大家来分析Alink中多层感知机的实现。 阅读全文
posted @ 2020-07-26 18:03 罗西的思考 阅读(885) 评论(0) 推荐(0) 编辑
摘要:Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和上文一起介绍了在线学习算法 FTRL 在Alink中是如何实现的,希望对大家有所帮助。 阅读全文
posted @ 2020-07-22 21:03 罗西的思考 阅读(1592) 评论(0) 推荐(1) 编辑
摘要:本文从一个调试时候常见的异常 "TimeoutException: Heartbeat of TaskManager timed out"切入,为大家剖析Flink的心跳机制。文中代码基于Flink 1.10。 阅读全文
posted @ 2020-06-23 22:03 罗西的思考 阅读(3371) 评论(0) 推荐(0) 编辑
摘要:本文从源码和实例入手,为大家解析 Flink 中 GroupReduce 和 GroupCombine 的用途。也涉及到了 Flink SQL group by 的内部实现。 阅读全文
posted @ 2020-06-16 21:31 罗西的思考 阅读(2411) 评论(0) 推荐(0) 编辑
摘要:Groupby和reduce是大数据领域常见的算子,但是很多同学应该对其背后机制不甚了解。本文将从源码入手,为大家解析Flink中Groupby和reduce的原理,看看他们在背后做了什么。 阅读全文
posted @ 2020-06-09 20:28 罗西的思考 阅读(5204) 评论(0) 推荐(0) 编辑
摘要:自从函数式编程和响应式编程逐渐进入到程序员的生活之后,map函数作为其中一个重要算子也为大家所熟知,无论是前端web开发,手机开发还是后端服务器开发,都很难逃过它的手心。而在大数据领域中又往往可以见到另外一个算子mapPartition的身影。在性能调优中,经常会被建议尽量用 mappartition 操作去替代 map 操作。本文将从Flink源码和示例入手,为大家解析为什么mapPartition比map更高效。 阅读全文
posted @ 2020-06-02 21:47 罗西的思考 阅读(1282) 评论(0) 推荐(1) 编辑
摘要:"Flink SQL UDF不应有状态" 这个技术细节可能有些朋友已经知道了。但是为什么不应该有状态呢?这个恐怕大家就不甚清楚了。本文就带你一起从这个问题点入手,看看Flink SQL究竟是怎么处理UDF,怎么生成对应的SQL代码。 阅读全文
posted @ 2020-04-29 23:01 罗西的思考 阅读(2026) 评论(2) 推荐(0) 编辑
摘要:本文将简述Flink SQL / Table API的内部实现,为大家把 "从SQL语句到具体执行" 这个流程串起来。并且尽量多提供调用栈,这样大家在遇到问题时就知道应该从什么地方设置断点,对整体架构理解也能更加深入。 阅读全文
posted @ 2020-04-25 10:08 罗西的思考 阅读(8850) 评论(0) 推荐(0) 编辑
摘要:本文将从FlatMap概念和如何使用开始入手,深入到Flink是如何实现FlatMap。希望能让大家对这个概念有更深入的理解。 阅读全文
posted @ 2020-03-30 21:15 罗西的思考 阅读(5038) 评论(0) 推荐(0) 编辑
摘要:本文将通过源码分析和实例讲解,带领大家熟悉Flink的广播变量机制。 阅读全文
posted @ 2020-03-29 19:57 罗西的思考 阅读(1837) 评论(0) 推荐(1) 编辑
摘要:本文将通过源码分析,带领大家熟悉Flink Watermark 之传播过程,顺便也可以对Flink整体逻辑有一个大致把握。 阅读全文
posted @ 2020-02-22 17:13 罗西的思考 阅读(4311) 评论(2) 推荐(2) 编辑
摘要:对于Flink来说,Watermark是个很难绕过去的概念。本文将从整体的思路上来说,运用感性直觉的思考来帮大家梳理Watermark概念。 阅读全文
posted @ 2020-02-09 11:10 罗西的思考 阅读(41839) 评论(6) 推荐(22) 编辑

点击右上角即可分享
微信分享提示