系统过载理解

转自：https://cloud.tencent.com/developer/article/1329609

https://www.361shipin.com/blog/1552697548710346752，讲的很好

1.介绍

过载： 系统负载超过系统最大的处理能力。

服务器雪崩： 服务器的处理能力陡降，低于系统原本能达到的最大处理能力。

关系：

系统过载处理不当会造成服务器雪崩：系统过载时，CPU、内存等资源达到瓶颈，系统响应会变慢。这时可能会发生大量的请求重试或系统内部重试，进一步加剧系统负载，产生恶性循环，导致系统处理能力急剧下降（服务器雪崩）。

过载原因：

https://blog.csdn.net/VitaminX181/article/details/117490627

优化有三个维度：分别是吞吐量、时延、系统容量。

从系统层面看：CPU、内存、网络、磁盘这几个维度。

前端系统C通过udp请求访问后端serverD，后端server D的udp套接字缓冲区为4MB，每个请求大小约400字节。后端serverD偶尔处理超时情况下，前端系统C会重试，最多重试2次。

假设一个业务场景，秒杀门票，大量的用户聚集在同一时刻发起了大量请求，超出了后台serverD的最大负载能力。操作响应失败的用户又重试，中间系统的重试，进一步带来了更大量的请求，导致所有用户操作都是失败的。

大量请求会马上将4MB大小的缓冲区堆满，请求可能会丢失，而且D在处理排队的请求时，处理到的时候可能该请求就已经超时了，已经被用户重试了，那么D所做的处理就是无用功。

过载保护很重要的一点，不是说要加强系统性能、容量，成功应答所有请求，而是保证在高压下，系统的服务能力不要陡降到0，而是顽强的对外展现最大有效处理能力。【不论如何，要保证系统的可用性！】

对于“每个系统要有能力发现哪些是有效的请求，哪些是雪球无效的请求”。

在系统每个机器上都部署一个interface实例，它能够快速的从socket缓冲区中取得请求，打上当前时间戳，压入channel。
业务处理进程从channel中获取请求和该请求的时间戳，如果发现时间戳早于当前时间减去超时时间（即已经超时，处理也没有意义），就直接丢弃该请求，或者应答一个失败报文。

Channel是一个先进先出的通信方式，可以是socket，也可以是共享内存、消息队列、或者管道，不限。

posted @ 2022-09-30 23:11 lypbendlf 阅读(404) 评论(0) 编辑收藏举报

刷新页面返回顶部