Kafka

Apache Kafka 是一个分布式的流处理平台，主要用于实时数据流的发布、订阅、存储和处理。它具有高吞吐量、低延迟和分布式架构的特点，广泛应用于日志处理、消息队列、事件流处理等场景。

核心概念

Kafka的运行实例，负责存储和处理消息。一个Kafka集群由多个Broker组成，每个Broker用唯一的broker.id标识。

消息的分类或逻辑通道，数据按Topic存储

发送消息的客户端，可以将数据发布到指定的Topic和分区。

订阅Topic并消费信息的客户端，通过消费组（Consumer Group）协调并行消费。

Kafka使用Zookeeper存储元数据和协调集群操作

Producer 将消息写入指定的 Topic，Kafka 会根据分区策略选择分区存储。

Kafka 按分区顺序存储消息，同时通过配置保留策略（时间或大小）来管理历史数据。

Consumer 从 Topic 的分区中拉取数据。消费组内的消费者分配分区以确保每个分区仅被一个消费者读取。

采用顺序写磁盘和页面缓存技术，提供高性能。

数据持久化到磁盘，通过副本机制实现高可用

增加Broker或分区可以扩展集群容量和性能。

支持点对点和发布订阅模式。

数据分布在多个分区和Broker中，支持分布式处理。

Broker配置
- 增加num.partitions和log.retention.hours来平衡性能和存储需求
- 配置副本数量replication.factor保证容错能力
Producer配置
- 优化批量发送数据的参数，如batch.size和linger.ms
Consumer配置
- 设置合适的max.poll.records和session.timeout.ms，以适应消费速率
集群监控
- 使用Kafka提供的JMX指标，结合工具如Prometheus和Grafana，监控Broker、Topic和Consumer状态

https://cloud.tencent.com/developer/article/1844234

posted @ 2024-12-13 16:19 枯藤老樹昏鴉阅读(53) 评论(0) 收藏举报

刷新页面返回顶部