zourui4271

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 56 下一页

2020年8月25日 #

摘要: kafka最初是被LinkedIn设计用来处理log的分布式消息系统,因此它的着眼点不在数据的安全性(log偶尔丢几条无所谓),换句话说kafka并不能完全保证数据不丢失。 尽管kafka官网声称能够保证at-least-once,但如果consumer进程数小于partition_num,这个结论 阅读全文
posted @ 2020-08-25 16:19 zourui4271 阅读(429) 评论(0) 推荐(0)

摘要: 如果将 consumer 设置为 autocommit,consumer 一旦读到数据立即自动 commit。如果只讨论这一读取消息的过程,那 Kafka 确保了 Exactly once。 但实际使用中应用程序并非在 consumer 读取完数据就结束了,而是要进行进一步处理,而数据处理与 com 阅读全文
posted @ 2020-08-25 16:16 zourui4271 阅读(834) 评论(0) 推荐(0)

2020年8月24日 #

摘要: Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/ 阅读全文
posted @ 2020-08-24 19:23 zourui4271 阅读(1097) 评论(0) 推荐(0)

摘要: Kafka是高吞吐低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的Kafka集群甚至可以做到每秒几十万、上百万的超高并发写入。 那么Kafka到底是如何做到这么高的吞吐量和性能的呢?这篇文章我们来一点一点说一下。 一、页缓存技术 + 磁盘顺序写 首先Kafka每次接收到数 阅读全文
posted @ 2020-08-24 17:18 zourui4271 阅读(245) 评论(0) 推荐(0)

2020年8月22日 #

摘要: 1. 相关概念 在实际的业务中,我们经常会遇到数据迟到的情况,这个时候基于窗口进行计算的结果就不对了,Flink中watermark就是为了解决这个问题的,理解watermark之前,先来说一下flink中的三个与流数据相关的概念,ProcessTime、EventTime、IngestionTim 阅读全文
posted @ 2020-08-22 12:09 zourui4271 阅读(538) 评论(0) 推荐(0)

摘要: flink 通过实现了 Google Dataflow 流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。 同时 flink 支持高度容错的状态管理,防止状态在计算过程中因为系统异常而丢失,flink 周期性地通过分布式快照技术 Checkpoints 实现状态的持久化维护,使得即使在系 阅读全文
posted @ 2020-08-22 11:35 zourui4271 阅读(645) 评论(0) 推荐(0)

摘要: Flink的容错机制 当 Flink 开启了 checkpoint 的时候,Flink 会一边消费 topic 的数据,一边定时的将 offset 和 其他 operator 的状态记录到 checkpoint 中。 如果遇到了 job 失败的情况,那么 Flink 将会重启 job,从最后一个 c 阅读全文
posted @ 2020-08-22 11:31 zourui4271 阅读(245) 评论(0) 推荐(0)

摘要: https://cloud.tencent.com/developer/column/79736 阅读全文
posted @ 2020-08-22 09:27 zourui4271 阅读(337) 评论(0) 推荐(0)

摘要: 一、描述 Window 是处理无限流的核心。Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层的引擎是一个流式引擎,在上面实现了流处理和批处理。 而窗口(Window)就是从Streaming 到 batch 的一个桥梁。Flink 提供了非常完善的窗口机制,这 阅读全文
posted @ 2020-08-22 09:23 zourui4271 阅读(545) 评论(0) 推荐(0)

摘要: Apache Flink–DataStream–Window 什么是Window?有哪些用途? 下面我们结合一个现实的例子来说明。 我们先提出一个问题:统计经过某红绿灯的汽车数量之和? 假设在一个红绿灯处,我们每隔15秒统计一次通过此红绿灯的汽车数量,如下图: 可以把汽车的经过看成一个流,无穷的流, 阅读全文
posted @ 2020-08-22 09:19 zourui4271 阅读(197) 评论(0) 推荐(0)

上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 56 下一页