zourui4271

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 55 下一页

2020年8月24日 #

摘要: Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/ 阅读全文
posted @ 2020-08-24 19:23 zourui4271 阅读(388) 评论(0) 推荐(0) 编辑

摘要: Kafka是高吞吐低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的Kafka集群甚至可以做到每秒几十万、上百万的超高并发写入。 那么Kafka到底是如何做到这么高的吞吐量和性能的呢?这篇文章我们来一点一点说一下。 一、页缓存技术 + 磁盘顺序写 首先Kafka每次接收到数 阅读全文
posted @ 2020-08-24 17:18 zourui4271 阅读(225) 评论(0) 推荐(0) 编辑

2020年8月22日 #

摘要: 1. 相关概念 在实际的业务中,我们经常会遇到数据迟到的情况,这个时候基于窗口进行计算的结果就不对了,Flink中watermark就是为了解决这个问题的,理解watermark之前,先来说一下flink中的三个与流数据相关的概念,ProcessTime、EventTime、IngestionTim 阅读全文
posted @ 2020-08-22 12:09 zourui4271 阅读(457) 评论(0) 推荐(0) 编辑

摘要: flink 通过实现了 Google Dataflow 流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。 同时 flink 支持高度容错的状态管理,防止状态在计算过程中因为系统异常而丢失,flink 周期性地通过分布式快照技术 Checkpoints 实现状态的持久化维护,使得即使在系 阅读全文
posted @ 2020-08-22 11:35 zourui4271 阅读(611) 评论(0) 推荐(0) 编辑

摘要: Flink的容错机制 当 Flink 开启了 checkpoint 的时候,Flink 会一边消费 topic 的数据,一边定时的将 offset 和 其他 operator 的状态记录到 checkpoint 中。 如果遇到了 job 失败的情况,那么 Flink 将会重启 job,从最后一个 c 阅读全文
posted @ 2020-08-22 11:31 zourui4271 阅读(201) 评论(0) 推荐(0) 编辑

摘要: https://cloud.tencent.com/developer/column/79736 阅读全文
posted @ 2020-08-22 09:27 zourui4271 阅读(321) 评论(0) 推荐(0) 编辑

摘要: 一、描述 Window 是处理无限流的核心。Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层的引擎是一个流式引擎,在上面实现了流处理和批处理。 而窗口(Window)就是从Streaming 到 batch 的一个桥梁。Flink 提供了非常完善的窗口机制,这 阅读全文
posted @ 2020-08-22 09:23 zourui4271 阅读(487) 评论(0) 推荐(0) 编辑

摘要: Apache Flink–DataStream–Window 什么是Window?有哪些用途? 下面我们结合一个现实的例子来说明。 我们先提出一个问题:统计经过某红绿灯的汽车数量之和? 假设在一个红绿灯处,我们每隔15秒统计一次通过此红绿灯的汽车数量,如下图: 可以把汽车的经过看成一个流,无穷的流, 阅读全文
posted @ 2020-08-22 09:19 zourui4271 阅读(187) 评论(0) 推荐(0) 编辑

2020年8月18日 #

摘要: hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储。 rowkey是行的主键,而且hbase只能用个rowkey,或者一个rowkey范围即scan来查找数据。所以 阅读全文
posted @ 2020-08-18 22:59 zourui4271 阅读(151) 评论(0) 推荐(0) 编辑

摘要: 下图是一个典型的,互联网分层架构: 客户端层:典型调用方是浏览器browser或者手机APP 站点应用层:实现核心业务逻辑,从下游获取数据,对上游返回html或者json 服务层:业务服务,数据服务,基础服务,对上游提供友好的RPC接口 数据缓存层:缓存加速访问存储 数据固化层:数据库固化数据存储 阅读全文
posted @ 2020-08-18 11:10 zourui4271 阅读(147) 评论(0) 推荐(0) 编辑

上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 55 下一页