MIT6.824 spring21 Lab2A总结记录

写在前面

这是我第一次写博客，主要是为了记录自己在做MIT6.824 Lab的过程中的实现设计，防止以后忘记。

其实之前做完6.828的时候就想写了来着，但是还是由于种种原因搁置了（其实是因为懒。。。）

这次下定决心，主要是因为完成这次实验花了相当久的时间，修改了好几版才想出现在的版本。

在基本逻辑实现之后又排除掉了很多race和goroutine leakage的问题。总觉得不记录下来，以后全都忘掉太亏了（😂）

我跑了50次test，都通过了。代码正确性应该没有问题。但是很多地方都有冗余（毕竟是一遍一遍修改出来的。。。），还可以改的更精简。

如果你在看，请多多包涵！

整体结构

---------------------------------------------注意：整体结构在2B/2C中有较大调整！-------------------------------------------------------

主要调整的部分是蓝色线消息通知的部分。详见Lab2B/2C总结记录。

实现的整体结构大概就是这样。图中的每个框框都表示一个goroutine，对应着一个函数。

左边的两个框框是两个RPC Handler。

红色的框框（ticker）表示说这个goroutine不会终止。它将在死循环中永远执行。

蓝色的messge表示channel。两个RPC handler通过*非阻塞的*channel，向elect()和leader()这两个gouroutine发送终止信号。

绿色的字表示相关的箭头的发生时机，这个后面会加以详细解释。

状态（State）

在开始描述各个函数之前，让我先来讲一讲Raft状态的表示。

为了方便起见，我在Raft struct中维护了一个枚举类型的状态变量state。它一共有三种取值：follower/candidate/leader.

值得一提的是，这个变量的维护（防止race）是一件比较麻烦的事情。在这次实验的整体逻辑完成之后，我也的确花了不少的时间来找出潜在的race。

（虽然我觉得我把race都找出来了，但可能实际上还是有。。。分布式嘛。

解决race问题的主要指导思想就是：

在raft执行的整个过程中，只有elect和leader这两个goroutine可以修改rf.state。

这里主要想记录一下go中枚举类型的表示方法。

golang里面是没有枚举变量这种东西的。所以要表示枚举变量，就需要通过间接的方式实现。

上面图中的代码是写在所有函数定义最前面的。这里定义了serverState类型（int的别名）。

在const声明中，我们看到了iota这个表达式。它可以从1开始自动递增。因此这里follower就等于1，后面的以此类推。

在定义了枚举类型之后，我们可以继续向下了。

RPC Handler

首先来挑简单的说。两个RPChandler是Hint中推荐先实现的两个函数。因此我也从这里开始说起。

两个handler有一些共性。

首先由于它们都需要密集地读取包括rf.currentTerm在内的多个共享状态，因此我把他们设计成在最开始获取rf.mu这把锁，并在执行的全过程中持有锁。

其次，它们都需要在reply中给出rf.currentTerm。（注意rf.currentTerm可能需要在处理的过程中被修改。reply中的值应该是处理完成后的最终值。）

最后，它们都需要根据args.Term和rf.currentTerm之间的大小关系做不同的处理。

综合这三点，两个RPC handler的结构大致如下：

各种case中具体的处理流程这里就不展开了。详细的东西可以去看论文和我具体的代码实现。

值得讲的是它们如何发送message给正在执行leader()和elect()的goroutine。（也就是整体结构图中的蓝色message）

这里以 args.Term > rf.currentTerm 的情况为例。此时我们收到的RPC请求方具有更高的Term。我们应该立即接受这一Term，且转为follower。

转换为followe应该区分两种情况：rf.state==leader和rf.state==candidate。

对于这两种情况，需要将终止信号分别告知leader和elect两个goroutine。

注意到这里采用了非阻塞的发送（用一个新建的goroutine去发送messge。）这样可以保证RPC handler及时退出，放弃rf.mu锁，让leader和elect能够获取到锁，继续执行。

在我最开始的实现中，没有使用非阻塞发送。这样将导致死锁😛

那么是否需要担心这里出现goroutine leak呢？如果leader或者elect不再监听对应的channel，那么这两个新建的goroutine可能阻塞在对应的channel上。

答案是不需要。因为我们可以在leader和elect函数的实现中确保：

如果rf.state==leader，则leader一定会监听leaderAbortChannel。如果leader因为其他原因退出（如leader收到了Term更大的reply），那么保证leader会尝试drain the channel，然后获取rf.mu，修改rf.state=follower。

如果rf.state==candidate，则完全类似。

这样，我们利用rf.mu将RPC handler与修改rf.state的过程串行化，确保了如果rf.state==leader/candidate，且RPC handler向channel中发送了终止信息：那么leader/elect一定会排空这个信息，让发送goroutine正常终止。

这里比较tricky，需要仔细思考一下！

Ticker

ticker是最特殊的函数。它将持续执行，永不终止。

在Hint中，助教提示我们不要用time.Timer或者timer.Ticker，因为它们容易导致问题。助教推荐使用time.Sleep。

但是在实际操作中我发现time.Sleep不能很好地实现reset功能。

（关于使用time.Sleep，我觉得可以这样实现：

即：把一次计时打碎为多次计时。

）

再者，time.Timer等的使用还是有必要学习一下的。（谁喜欢重复造轮子呢😂

因此我使用了time.Timer实现计时器。增加了一把锁rf.timerLock用于重置timer（重置过程是互斥的）

每次Timer fire，都执行timer.Reset内置函数重置时间。

但是如果timer没有fire，reset timer的实现有必要加以注意。

此时必须要先stop timer，排空其channel，再reset timer。而且这一系列动作应该是互斥的（要加锁）。

这一套流程有固定的套路。但是这个套路仍然不能保证不发生race。这恐怕就是助教所说“容易发生错误”的原因。

详细的分析可以看https://zhuanlan.zhihu.com/p/133309349，这里不展开。

一个需要注意的点是：

如果timer fire，且当前rf.state==candidate，我们需要重新选举。

这表示我们需要放弃之前的那次选举，也就是让上一次的elect goroutine退出，且不再影响rf的任何状态（不再与RPC handler通信、不再修改rf.currentTerm等）。

可以用两个比较简单的机制来实现这两件事情：

1. 每次发现需要重新选举，都更换rf.electAbortChannel。（创建一个新的channel，赋值给它）

2. 更换之前，向之前的rf.electAbortChannel中发送一个false信号，告诉前一个elect终止，且退出时不要影响rf的状态（如修改rf.currentTerm）。

【注：正常的终止信号是true。这里发false，可以区分。】

Elect

elect函数仅由ticker调用（通过创建新的goroutine）

在elect中，我们通过创建多个send goroutine的方式并发地发送RequestVote请求。

这些send goroutine执行sendRequestVote函数，并将获得的reply发送到voteChannel。另一端，elect循环监听voteChannel。

elect函数的逻辑

elect函数的执行逻辑大致如下：

首先并发地发送requestVote请求

然后循环接受reply。

reply中的第一个if语句值得注意：

在elect函数刚刚执行时，我们记录了当时的rf.currentTerm。

在这里我们检查rf.currentTerm是否和当时记录的值相同。

如果不同，这代表RPC handler已经修改了rf.currentTerm。我们应该立即退出。

【当然，我觉得这里的实现总有些怪怪的。好像不加也可以。但是既然testcase都能过，就懒得改了😂】

最后，每次获取下一个reply时，如果有RPC handler发送了终止信号，则退出。

生产者goroutine的退出

elect函数中的实现是一个“典型的多生产者-单消费者”模式。

在讲elect函数的退出机制之前，我想先单独讨论下：对于“多生产者-单消费者”，多个生产者如何退出的问题。

我们知道，生产者向voteChannel发送reply是阻塞的。若消费者不再监听voteChannel，则会导致goroutine leak。

第一个自然的想法是把消费者的发送设置为非阻塞。即：

但是这种方式的问题是：可能消费者忙于处理上一个到来的reply（由其他生产者生产。）那么这个reply将drop。

第二个想法是消费者循环执行exactly len(rf.peers)-1次（所有的server数量减去我们自己），即读取voteChannel exactly len(rf.peers)-1次。

这种想法较难实现。这导致elect在收到退出信号时不能及时退出，增加了不必要的实现复杂性。因此我没有采取这种方式。

实际上这种模型有一个更好的终止办法：使用有buffer的channel。

（虽然professor明确说不建议使用buffered channel，但是我觉得应该灵活变通😛

开辟一个buffer大小为len(rf.peers)-1的terminateChannel。

当终止时，elect向这个buffer中发送len(rf.peers)-1个signal。

将生产者发送处的代码改为：

即：发送reply，或从terminateChannel读取。

这样可以很好的防止阻塞，从而避免goroutine leak。

elect函数的退出

elect函数的退出逻辑值得描述一下。虽然没有什么新的东西，但是上面提到的一些东西要在这里实现。

这里以reply.Term>rf.currentTerm的情况为例：

首先，需要按照【生产者goroutine的退出】一节中的描述，向terminateChannel中发送len(rf.peers)-1个终止信号。

其次，需要按照【RPC Handler】一节中的描述，drain electAbortChannel。

最后，需要按照【ticker】一节中的描述，检查drain electAbortChannel得到的值（如果有）是否为false。若为false，则不修改任何状态，直接退出。

下面展示了一个典型的elect退出情况

Leader

leader函数仅由elect调用（通过创建新的goroutine）

在leader中，我们同样通过创建多个send manager的方式并发地发送RequestVote请求。

这些send manager再周期性创建send goroutine，执行sendAppendEntries函数，并将获得的reply发送到heartbeatChannel。另一端，leader循环监听heartbeatChannel。

（与elect很相似。不过多了一级goroutine）

leader函数的逻辑

leader函数的执行逻辑大致如下：

其实和elect在整体结构上并没有任何不同。。。

（但是细节上还是有需要注意的地方！😂

send manager

首先要说的就是send manager。

你可能会疑惑，为什么要引入这个东西？像elect一样不好吗？

先别急。

我们知道，leader是要周期性地向所有其他server发送心跳的。

如果我们不采用send manager：在send manager中，我们故技重施（仿照ticker）：创建一个time.Timer。每当timer fire，创建一个send goroutine发送heartbeat。

看起来似乎很美好。

但注意，这种实现会出问题！

我们知道，接口函数sendAppendEntries是要等待一段时间才会返回reply的。（这个等待时间可能很长，甚至远远超过heartbeat的发送周期）

如果sendAppendEntries迟迟不能返回reply，那么发送实际上会阻塞。我们将不能按周期发送heartbeat！

（这个bug我找了好久/(ㄒoㄒ)/~~）

如果在执行sendAppendEntries的时候创建新的goroutine，我们可以避免这个问题。

如果我们添加一个额外的计时器innerTimer，经过半个heartbeatChannel之后fire，并kill sendAppendEntries goroutine，认为这次发送失败。

我们就可以在下一个原来的timer fire的时候，正常发送心跳包。（没有阻塞）

我们可以把上面实现中的

替换为

注意这里两个select语句的妙用。

既实现了innerTimer fire的提前终止，也防止了goroutine leakage。

通过这种方式，我们实现了heartbeat的周期性发送。

leader函数的退出

leader函数的退出流程与elect相似。

但是leader相比于elect，有两个简化点：

1. leader不会发生elect中的"re-elect"现象（leaderAbortChannel中的信号只能为true，无需检查）

2. leader如果发生状态改变，一定是变为follower

因此我们可以将终止时的逻辑抽象成函数：

（注意：drain leaderAbortChannel的过程并不包含在这里。至于原因，可以看代码。一句话说不清楚。）

（注意：leader转变回follower，要resetTimer）

总结

至此，代码实现中的关键点总结完毕。

如果对raft选举的流程有疑问，可以仔细研究下论文。

本篇博客的重点不是选举逻辑，而是避免race，避免thread leak，避免deadlock，以及一些设计哲学。

我感觉有很多地方写的都不好，如果你在看，还请多多包涵！

posted @ 2021-03-11 20:07 sun-lingyu 阅读(562) 评论(0) 收藏举报

刷新页面返回顶部

sun-lingyu