mit 6.824 lab1 思路贴

前言

为遵守 mit 的约定，这个帖子不贴太多具体的代码，主要聊聊自己在码代码时的一些想法和遇到的问题。

这个实验需要我们去实现一个 map-reduce 的功能。实质上，这个实验分为两个大的板块，map 和 reduce 两个阶段，也就是这个实验的核心部分，两个阶段都包含若干小的子任务，然后用户通过编写 map 和 reduce 函数。这个实验里，我们的任务是，读取 main 文件夹下的八个 txt 文档，扫描其中的单词，并计数，将结果输出到若干个子文件中，最后的话，测试脚本会读取这八个文件，把里面的结果输出到另一个 txt 中并进行排序，比对给出的标准答案，来评判该实验是否通过。

做这个实验的前提是，已经读过这个实验配套的论文：mapreduce-osdi04.pdf (googleusercontent.com) ~~知道这个实验以及想要做这个实验的人多少都会有点手段上谷歌~~（当然，也可以去找国内转载的，看不懂的话就看中文的吧，实验文档也是。

Getting Started

当我们打开这个项目工程，我们阅读这个项目的所有文件，以及 lab1 中给出的提示，我们可以先试着运行以下部分代码，来看看我们最重要得到什么结果：

复制# 当前目录为 src/main
go build -race -buildmode=plugin ../mrapps/wc.go
rm -rf mr-out*
go run -race mrsequential.go wc.so pg*.txt
more mr-out-0

这个是一个单线程的 map-reduce，我们可以查看 mrsequential.go 的内容，大概了解下整个 map-reduce 的过程是怎样的。

然后，我们把目光聚集到以下文件中：

---main
	 |---mrworker.go
	 |---mrcoordinator.go
	 |---mrsequential.go
---mr
	 |---worker.go
	 |---coordinator.go
	 |---rpc.go
---mrapp
	 |---wc.go

后面我们在这个实验中很多内容都要参考这些文件的内容，其中包含一些函数的来源，其中，尤其 main/mrsequential.go 尤其重要。

实现 rpc 通信

如果说想要实现 map-reduce，那么第一步就是实现 worker 和 coordinator 的 rpc 通信，观察 mr 目录下的文件后，我们需要在 rpc.go 和 coordinator.go 中定义以下结构体 (目前仅实现 rpc 通信)：

// coordinator.go
// 专门定义一个Task，用于coordinator向worker分发任务
type Task struct {
    FileName string
}

// 这里声明coordinator相关的结构体
type Coordinator struct {
    task Task
}

// rpc.go
// 这里参考了上面的两个Example
type TaskRequest struct {
    X int
}

type TaskReply struct {
    XTask Task     
}

下一步要做的是，需要让 coordinator 和 worker 之间能够进行 rpc 通信。

实现两者之间的通信是完成这个实验的基础。

worker接收消息

worker 调用 coordinator 的获取任务函数，获取要处理的文件名，然后执行打开操作。

在构建中间体 intermediate 时，可以留意到 mrsequential.go 有提示：

// a big difference from real MapReduce is that all the
// intermediate data is in one place, intermediate[],
// rather than being partitioned into NxM buckets.

根据这个思路，相当于提示我们，在构建桶存放中间体时，可能会用到二维 NxM 的数组。

然后经过 map 处理后的键值对切片，需要进一步经过 json 处理，并且将这个结果分成 nReduce 份，存放的文件命名规则是 mr-X-Y，其中 x 是 map 任务的序号，y 是 reduce 任务的序号。

在进行 reduce 任务时，读取结果也需要经过 json 处理，这里很多步骤都可以借鉴 mrsequential.go，包括读取文件等。

在创建目标文件时，可以使用 ioutil.TempFile 来创建临时文件，最后再重新命名。

此阶段的结构体声明如下：

// coordinator.go
type Coordinator struct {
    State            int // 0 map 1 reduce 2 none
    MapTask          Task
    ReduceTask       Task
    NumMapTask       int
    NumReduceTask    int
    MapTaskFinish    chan bool
    ReduceTaskFinish chan bool
}

type Task struct {
    FileName string
    IDMap    int
    IDReduce string
}

// rpc.go
type TaskRequest struct {
    X int
}

type TaskReply struct {
    XTask            Task
    NumMapTask       int
    NumReduceTask    int
    CurNumMapTask    int
    CurNumReduceTask int
}

实现 rpc 通信

根据文档的指引，我们首先要实现 coordinator 和 worker 之间的通信，我们看到 worker.go 中有 call 和 CallExample 两个函数，那也照葫芦画瓢，自己搞一个 CallGetTask，实现 rpc 通信。

Worker 申领 task

看着 Worker() 里的注释，有一行 CallExample()，是需要我们在这个函数里调用自定义的 CallGetTask 函数来获取 coordinator 分发的 task，在 call 之前，我们先要给 coordinator 的成员 MapTask 初始化，在 MakeCoordinator 中，我们可以看到 files 和 nReduce 这两个参数，那就从这两个入手，进行简单的初始化后，我们尝试在 Worker 中输出，能够输出文件名就是阶段性胜利。

照抄 `mrsequential.go`

文档中有提到，可以随意借鉴 mrsequential 中的函数，那么，走起。不过也要看看注释和文档，可以创建一个 NxM 的桶，和利用 encoder 和 decoder 来处理中间产物。

向 coordinator 的报告

每执行完一个任务，就向 coordinator 报告，方便 coordinator 记录，当所有任务都执行完时，修改 Done 中的条件，解除阻塞。

其实，走到这一步，可以说这个 lab 完成一半了，剩下就是各种断点打印 debug。

如果在执行过程提示无法打开文件，那说明，map 或 reduce 任务完成个数的条件没有控制好，mrsequential.go 中规定了一共会生成 3 个 workers，无法打开文件，只可能是，并发申请 task 时，已经快要到 task 的容量数，没分配到的 worker 自然也就没有分配到 FileName 和 MapID，所以需要设置好这些控制条件

解决 crash

做完上面，7 个 test 就可以 pass 6 个了，剩下一个 crash 的，需要用到锁或原子变量方面的知识。在进行 GetTask 时，我们传递的参数，需要确保其原子性，不然会出现 data race 现象；同时，也要对超过 10s 的任务进行舍弃处理，这里我们加一个时间戳，来记录任务的完成情况和开始时间。

又考虑到在记录任务完成情况时，是一个并发状态，这里考虑使用 sync.Map。在进行最后的 Done 之前，我们还要再定义一个检查函数，来遍历检查是否还有 crash 的任务。

参考链接

6.5840 Lab 1: MapReduce (mit.edu)

mit6.824分布式lab1-MapReduce（1）_哔哩哔哩_bilibili

posted @ 2023-02-06 20:19 JaydenChang 阅读(296) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 自己动手写Docker学习笔记

· gin+MySQL简单实现数据库查询

· MIT6.824 Lab1 实现记录

· mit 6.824 lab1分析

· MIT 6.824 lab1

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 25岁的心里话
· ollama系列01：轻松3步本地部署deepseek，普通电脑可用
· 按钮权限的设计及实现

公告

昵称： JaydenChang
园龄： 4年7个月
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

Loading

Jayden's Blog

mit 6.824 lab1 思路贴

前言

Getting Started

实现 rpc 通信

worker接收消息

实现 rpc 通信

Worker 申领 task

照抄 `mrsequential.go`

向 coordinator 的报告

解决 crash

参考链接

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

Loading

Jayden's Blog

mit 6.824 lab1 思路贴

前言

Getting Started

实现 rpc 通信

worker接收消息

实现 rpc 通信

Worker 申领 task

照抄 mrsequential.go

向 coordinator 的报告

解决 crash

参考链接

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

照抄 `mrsequential.go`