Pulsar架构

架构设计

主要由三部分组成：

Broker集群：一个或多个Broker节点，负责接收生产者发送的消息，将消息转发给BookKeeper存储，以及将消息投递给消费者，完成负载均衡、Schema校验、Ledger自动更新、ACK管理等
BookKeeper集群：一个或多个Bookie节点组成，负责消息持久化存储
Zookeeper集群：负责元数据存储和节点监控

和Kafka相比优缺点

缺点：
- 增加网络传输性能损耗
- 架构方案比较复杂
优点：
- 计算层和存储层可以独立扩容，不需要进行数据迁移
- 对于弹性容器云平台非常友好

计算层

Zookeeper存储Broker管理的元数据（租户、命名空间、主题等）
主题和Broker绑定，该主题的所有生产者会和这个Broker绑定（非分区主题）
每个消费者绑定一个订阅组

存储层

利用BookKeeper存储数据
Ledger：一组数据的集合，有3个关键配置
- EnsembleSize：每个Ledger选择EnsembleSize个节点，会将该Ledger的数据分散存储到这几个节点中
- WriteQuorumSize：每个写入操作会同时发送到EnsembleSize中的WriteQuorumSize个节点中（并行写提升效率）
- AckQuorumSize：当BookKeeper生产者收到AckQuorumSize个节点返回写入成功的响应后，认为消息写入成功（可以保证BookKeeper的数据安全）
BookKeeper实现WAL机制，设计了Journal日志，Bookie节点收到写入请求，会将数据写入Journal日志（顺序写入，性能非常高，建议使用独立的磁盘存放Journal文件，保证读写分离），然后立即返回写入成功的响应，这些数据存储到Journal日志后，BookKeeper将这些数据异步写入Ledger（支持不同的写入机制），默认使用DbLedgerStorage，定义了数据写入缓冲区，先将数据写入缓冲区，Bookie会启动一个异步线程，将缓冲区内容定时写入Ledger文件
缓存隔离：不同于Kafka使用PageCache作为磁盘读写的缓冲区，Pulsar使用Java进程的内存缓冲区
- 原因：PageCache在同时进行追尾读和追赶读时，历史数据和最新数据会争夺PageCache空间，造成读写响应不及时
- Pulsar定义了多个数据缓冲区，将最新数据和历史数据划分到不同的缓冲区，避免该问题
  - Broker数据缓冲区：缓存Broker中最新写入的数据，追尾读可以直接从该缓冲区读数据，读取失败再通过Bookie读取历史消息
  - Bookie写入缓冲区：缓存Bookie中写入的数据，读取数据时也会从该缓冲区读取数据
  - Bookie读取缓冲区：追赶读从磁盘中读取历史数据时，会预先读取一部分数据存储在该缓冲区
- 使用Java缓冲区的另一个好处：方便修改缓冲区大小，缺点是可能造成数据的重复缓存

系统伸缩

Broker扩容只需要将原来的Broker部分主题转交给新的节点即可，以bundle为单位迁移主题，不需要数据迁移
Bookie扩容，只需要将Bookie节点添加到集群中，Broker回将新的数据写入新的Bookie节点，不需要数据迁移

posted @ 2022-10-15 17:04 马晟阅读(239) 评论(0) 编辑收藏举报

刷新页面返回顶部

马晟

Pulsar架构

架构设计

和Kafka相比优缺点

计算层

存储层

系统伸缩

公告