关于Kafka Replication机制

 

Replication

  • Kafka的replication复制机制是其可靠性的保证,即为每个分区数据提供多个副本。

  • 每个Kafka topic包含有多个分区,分区是kafka存储数据的基本单位。一个分区只能存储在同一个硬盘上。

  • Kafka保证每一个分区内的消息的顺序,无论这个分区是在线(available)的还是离线的(unavailable)。

  • 每个分区拥有多个副本,其中一个副本将被指定为主副本(leader replicas),其余的为跟随副本(follower)

  • 所有的消息都会写入到主副本,所有的消息都从主要副本读取,其他的副本只需要保持于主副本同步即可

  • 当主副本离线时,其他的副本中的一个将会被推选为新的主副本(一般为该分区副本列表的下一个副本)

  • 关于副本是否处于“同步中(in-sync)”的状态的判断标准:

    • 如果它是主副本,那么它是处于“同步中(in-sync)”的状态。
    • 如果它是跟随副本, 且拥有以下状态,那么它处于“同步中(in-sync)”:
      • 它与zookeeper有一个可用的session(在最近6秒内给zk发送过心跳)
      • 它在最近10秒内从主副本获取过消息
      • 它在最近10秒从主副本获取过最新的消息

    否则,该副本的状态为“不同步(out-of-sync)”

  • 当一个同步中的副本出现延迟时,它会影响生产者和消费者的性能。因为只有在所有跟随副本同步完所有消息并且提交后,它们才会继续执行。

posted @ 2019-03-11 15:58  LestatZ  阅读(280)  评论(0编辑  收藏  举报