聊聊RPC的拥塞控制

前言

这个话题的背景源自于Hadoop内部的底层RPC处理过程，但是笔者认为针对所有其它RPC处理场景中也会碰到类似的拥塞问题，所以可以拿出来简单讲讲。首先来解释一下这里的名词，这里的RPC拥塞指的是系统被大量的用户特定的请求堵住了，导致没办法有资源来处理其它用户的正常请求，这里我们假设请求是被扔到一个请求队列中的。这里我们姑且不讨论发起大量请求的用户操作行为是否合理，但是在这种情况下，确实使得其它RPC被堵住了。本文，我们就来讨论这个在分布式系统中经常会遇到的问题，以及对应的解决思路。

拥塞控制的解决方案

此方案思路来源于HADOOP-9640中提到的FairCallQueue的设计，更加详细的设计细节可详见此JIRA。OK，下面笔者来简单阐述下拥塞控制的解决思路。

优先级分级

我们说RPC发生拥塞现象，它实际上是一种资源请求相互影响的结果，而这个相互影响的最根本原因是我们没有对它们进行更一步的分离，而是冗余在了一起进行处理。这里首先要改进的是划分出优先级关系，每个优先级对应一个队列，比如Q0,Q1，Q3，然后定义一个规则，数字越小的，优先级越高。

队列优先级确定

队列优先级划分好之后，很重要的一个操作就是优先级的确认，在这里我们当然不会人工的设置请求的优先级，一种比较通用的，比较智能是算法是根据请求发生频率确定优先级，对于用户而言，要做的是指定这个规则，具体地来说，比如3个队列，Q1队列的请求，请求频率在0~10%之间，Q2则是10~50%，剩余50以上的为Q3队列，转变为实际数量的话，就是100个请求内，请求了50次以上的归为Q2优先级队列，10次以内的为Q0队列。重新再来看之前看到的拥塞现象，导致拥塞现象的大部分请求，就会被分到同样的队列了，从而在后续的处理中，可以减少对于其它优先级队列的影响了。

其次在这里，频率的计数统计还要考虑到时限的问题，因为频率统计是要针对在一定时间内的，比如A时段的频率不可能完全与B时段的一样，也不可能一直被延用。在这里HADOOP-9640提到了一种衰减算法，前面时段内的计数结果通过衰减因子在下一轮的计算中，占比逐步衰减，这种做法比完全清零统计要平滑许多。

队列优先级权重设置

其实各个请求被分到各个优先级队列中后，后面的处理就有很多样的玩法了。比如说，最简单的，用轮询的方式从各个队列中取出一定的批次请求。在这里，我们提到一种更加灵活的做法，在轮询的大背景下，再针对各个队列设置一个理论保障比重。比如3个优先级队列，Q0,Q1,Q2，配置权重比如9,4,1。意为在一次轮询处理中，在后面的15个请求内，保证处理掉Q0队列的9次请求，Q1的4次请求，以及Q2的一次请求。

以上就是本文分享的主要内容，大家在实际使用中可以借鉴借鉴里面的解决思路。

参考资料

[1].https://issues.apache.org/jira/browse/HADOOP-9640. RPC Congestion Control with FairCallQueue

posted @ 2020-01-12 19:08 回眸,境界阅读(87) 评论(0) 编辑收藏举报

刷新页面返回顶部

Tippy

时间可以证明一切！！