大型网站高可用架构之CAP原理

在讨论高可用数据服务架构之前，必须先讨论的一个话题是，为了保证数据的高可用，网站通常会牺牲另一个也很重要的指标：数据一致性。

CAP原理认为，一个提供数据服务的存储系统无法同时满足数据一致性、数据可用性，分区耐受性（系统具有网络分区的伸缩性）这三个条件。

在大型网站应用中，数据规模总是快速扩张的，因此可伸缩性即分区耐受性必不可少，规模变大以后，机器数量也会变得庞大，这时网络和服务器故障会频繁出现。

要想保证应用可用，就必须保证分布式处理系统的高可用性。所以在大型网站中，通常会选择强化分布式存储系统的可用性和伸缩性，而在某种程序上放弃一致性。

一般说来，数据不一致通常出现在系统高并发写操作或者集群状态不稳（故障恢复、集群扩容等）情况下，应用系统需要对分布式数据处理系统的数据不一致性有所了解并进行

某种意义上的补偿和纠错，以避免出现应用系统数据不正确。

2012年淘宝“双十一”活动期间，在活动第一分钟就涌入了1000万独立用户访问，这种极端的高并发场景对数气处理造成了巨大压力，存储系统较弱的数据一致性导致出现部分商品

超卖现象（交易成功的商品数超过了商品库存数）。

CAP原理对于可伸缩的分布式系统设计具有重要意义，在系统设计开发过程中，不恰当地迎合各种需求，企图打造一个完美的产品，可能会使设计进入两难境地，难以为继。

具体说来，数据一致性又可分为如下几点。

数据强一致：各个副本数据在物理存储中总是一致的，数据更新操作结果和操作响应总是一致的，即操作响应通知更新失败，那么数据一定没有被更新，而不是处于不确定状态。

数据用户一致：即数据在物理存储中的各个副本的数据可能是不一致的，但是终端用户访问时，通过纠错和校验机制，可以确定一个一致的且正确的数据返回给用户。

数据最终一致：这是数据一致性中较弱的一种，即物理存储的数据可能是不一致的，终端用户访问到的数据可能也是不一致的（同一用户连接访问，结果不同；或者不同用户同时访问，

结果不同），但系统经过一段时间（通常是一个比较短的时间段）的自我恢复和修正，数据最终会达到一致。

因为难以满足数据强一致性，网站通常成本、技术、业务场景等条件，结合应用服务和其他的数据监控与纠错功能，使存储系统达到用户一致，保证最终用户访问数据的正确性。

【如果文字看累了，可b站搜索“沙皮狗2021”，用听的方式领略知识的魅力】

posted @ 2021-12-03 17:36 蜗牛慢慢向上爬阅读(116) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

昵称：蜗牛慢慢向上爬
园龄： 3年11个月
粉丝： 0
关注： 0

2025年3月

日

一

二

三

四

五

六

蜗牛慢慢向上爬