摘要:
构建数据管道需要考虑的问题: 及时性 可靠性 高吞吐量和动态吞吐量 数据格式 转换 安全性 故障处理能力 耦合性与灵活性 数据管道的构建分为2个阵营,ETL和ELT ETL:提取-转换-加载 当数据流经管道时,数据管道负责处理他们 ELT:提取-加载-转换:数据管道只做少量的转换,高保真 数据管道最 阅读全文
摘要:
Kafka保证分区消息的顺序,“先入先出” 只有当消息被写入分区的所有副本时,才被认为已提交的 只要有一个副本是活跃的,已提交的消息就不会丢失 消费者只能读取已经提交的消息 如果一个或多个副本在同步/非同步之间状态快速切换,说明集群内出现问题,通常是JAVA不恰当的垃圾回收配置导致的 broker安 阅读全文
摘要:
集群成员关系: Kafka使用zookeeper维护集群成员信息,每个broker拥有唯一标识符,这个标识符可以在配置文件里指定也可以自动生成,会注册到Zookeeper的/brokers/ids路径下 控制器: 本质就是一个broker,但是还负责分区首领选举 Kafka使用zookeeper的临 阅读全文
摘要:
消费者和消费群组: Kafka消费者从属于消费者群组,一个群组里的消费者订阅的是同一个主题,每个消费者接收主题的一部分分区消息 消费者的数量不要超过主题分区的数量,多余的消费者只会被闲置 一个主题可以被多个消费群组使用,消费者群组之间互不影响 当一个消费者加入群组时,他读取的数据是原本由其他消费者读 阅读全文