zourui4271

如何保证kafka的数据不丢失

摘要： kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论阅读全文

posted @ 2020-08-25 16:19 zourui4271 阅读(429) 评论(0) 推荐(0)

kafka实现三种数据提交模式

摘要：如果将 consumer 设置为 autocommit，consumer 一旦读到数据立即自动 commit。如果只讨论这一读取消息的过程，那 Kafka 确保了 Exactly once。但实际使用中应用程序并非在 consumer 读取完数据就结束了，而是要进行进一步处理，而数据处理与 com 阅读全文

posted @ 2020-08-25 16:16 zourui4271 阅读(834) 评论(0) 推荐(0)

Kafka史上最详细原理总结

摘要： Kafka Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/ 阅读全文

posted @ 2020-08-24 19:23 zourui4271 阅读(1097) 评论(0) 推荐(0)

Kafka如何实现每秒上百万的高并发写入

摘要： Kafka是高吞吐低延迟的高并发、高性能的消息中间件，在大数据领域有极为广泛的运用。配置良好的Kafka集群甚至可以做到每秒几十万、上百万的超高并发写入。那么Kafka到底是如何做到这么高的吞吐量和性能的呢？这篇文章我们来一点一点说一下。一、页缓存技术 + 磁盘顺序写首先Kafka每次接收到数阅读全文

posted @ 2020-08-24 17:18 zourui4271 阅读(245) 评论(0) 推荐(0)

Flink基于EventTime和WaterMark处理乱序事件和晚到的数据

摘要： 1. 相关概念在实际的业务中，我们经常会遇到数据迟到的情况，这个时候基于窗口进行计算的结果就不对了，Flink中watermark就是为了解决这个问题的，理解watermark之前，先来说一下flink中的三个与流数据相关的概念，ProcessTime、EventTime、IngestionTim 阅读全文

posted @ 2020-08-22 12:09 zourui4271 阅读(538) 评论(0) 推荐(0)

flink 有什么优点

摘要： flink 通过实现了 Google Dataflow 流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。同时 flink 支持高度容错的状态管理，防止状态在计算过程中因为系统异常而丢失，flink 周期性地通过分布式快照技术 Checkpoints 实现状态的持久化维护，使得即使在系阅读全文

posted @ 2020-08-22 11:35 zourui4271 阅读(645) 评论(0) 推荐(0)

Flink-Kafka 连接器及exactly-once 语义保证

摘要： Flink的容错机制当 Flink 开启了 checkpoint 的时候，Flink 会一边消费 topic 的数据，一边定时的将 offset 和其他 operator 的状态记录到 checkpoint 中。如果遇到了 job 失败的情况，那么 Flink 将会重启 job，从最后一个 c 阅读全文

posted @ 2020-08-22 11:31 zourui4271 阅读(245) 评论(0) 推荐(0)

腾讯大学

摘要： https://cloud.tencent.com/developer/column/79736 阅读全文

posted @ 2020-08-22 09:27 zourui4271 阅读(337) 评论(0) 推荐(0)

flink 的窗口理解

摘要：一、描述 Window 是处理无限流的核心。Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层的引擎是一个流式引擎，在上面实现了流处理和批处理。而窗口（Window）就是从Streaming 到 batch 的一个桥梁。Flink 提供了非常完善的窗口机制，这阅读全文

posted @ 2020-08-22 09:23 zourui4271 阅读(545) 评论(0) 推荐(0)

Flink Windows窗口简介和使用

摘要： Apache Flink–DataStream–Window 什么是Window？有哪些用途？下面我们结合一个现实的例子来说明。我们先提出一个问题：统计经过某红绿灯的汽车数量之和？假设在一个红绿灯处，我们每隔15秒统计一次通过此红绿灯的汽车数量，如下图：可以把汽车的经过看成一个流，无穷的流，阅读全文

posted @ 2020-08-22 09:19 zourui4271 阅读(197) 评论(0) 推荐(0)

公告