分布式系统中幂等性、at least once 和 at most once 问题
讨论一下分布式系统传输过程中常见的at least once 还是 at most once 问题。一般在一次传输过程中,失败与否是使用最大等待时间(记为time out)来判断是否传输成功,如果超过了这个时间,说明传输失败。但是用time out来判断是否传输成功,如果失败的时候无法判断是传送过程中出问题还是返回过程中出问题,所以只能是选择失败的时候重传或者不重传。如果选择不重传,这样假定了在返回成功消息的时候出错,而此时服务器已经收到数据,但这样如果是传输过程出问题,那么服务器没有收到数据,所以有可能出现数据丢失,不丢失也最多传了一份数据,这时就是 at most once;如果假定是传输过程出现问题,而服务器没有收到数据,这样time out之后重传数据。但这可能是返回成功消息的时候出问题,而此时服务器已经收到数据,这样会因为重传而收到多份数据,这就是 at least once。我们会根据不同的应用场景决定选择哪种情形,比如TCP有超时重传,则是at least once,大数据kafka中也有决定哪种情形的策略。
接下来介绍幂等性的概念,幂等性是指允许多次传输重复的应用。幂等性其实是数学中的一个概念,表达的是N次变换与1次变换的结果相同。分布式系统中的幂等性指的就是用户对于同一操作发起的一次请求或者多次请求的结果是一致的,不会因为多次点击而产生了错误的结果。最直观的例子就是支付的时候,点击支付时,因为网络或其他原因导致异常,但是钱已经扣掉了,还没来得及返回给用户,此时用户又点击了支付,此时发生了二次扣费。我的理解幂等性说白了就是数据重复时的去重操作,kafka是用全局ID实现事务来保证幂等性的。在非幂等性应用中是不允许重复的,或者是没法对其进行幂等性处理的,此时就必须使用at most once 如果出错在通过检查数据、回滚等操作做后续的处理(处理比较麻烦、回滚事务费时间)。