Kafka的可靠性问题
a. Producer到broker
把request.required.acks设为1,丢会重发,丢的概率很小
b. Broker
b.1 对于broker,落盘的数据,除非磁盘坏了,不会丢的
b.2 对于内存中没有flush的数据,broker重启会丢
可以通过log.flush.interval.messages和log.flush.interval.ms来配置flush间隔,interval大丢的数据多些,小会影响性能
但在0.8版本,可以通过replica机制保证数据不丢,代价就是需要更多资源,尤其是磁盘资源,kafka当前支持GZip和Snappy压缩,来缓解这个问题
是否使用replica取决于在可靠性和资源代价之间的balance