MIT-6.824 lab1-MapReduce

概述

本lab将用go完成一个MapReduce框架，完成后将大大加深对MapReduce的理解。

Part I: Map/Reduce input and output

这部分需要我们实现common_map.go中的doMap()和common_reduce.go中的doReduce()两个函数。
可以先从测试用例下手：

func TestSequentialSingle(t *testing.T) {
	mr := Sequential("test", makeInputs(1), 1, MapFunc, ReduceFunc)
	mr.Wait()
	check(t, mr.files)
	checkWorker(t, mr.stats)
	cleanup(mr)
}

从Sequential()开始调用链如下：

现在要做的是完成doMap()和doReduce()。

doMap()：

func doMap(
	jobName string, // the name of the MapReduce job
	mapTask int, // which map task this is
	inFile string,
	nReduce int, // the number of reduce task that will be run ("R" in the paper)
	mapF func(filename string, contents string) []KeyValue,
) {
	//打开inFile文件，读取全部内容
	//调用mapF，将内容转换为键值对
	//根据reduceName()返回的文件名，打开nReduce个中间文件，然后将键值对以json的格式保存到中间文件

	inputContent, err := ioutil.ReadFile(inFile)
	if err != nil {
		panic(err)
	}

	keyValues := mapF(inFile, string(inputContent))

	var intermediateFileEncoders []*json.Encoder
	for reduceTaskNumber := 0; reduceTaskNumber < nReduce; reduceTaskNumber++ {
		intermediateFile, err := os.Create(reduceName(jobName, mapTask, reduceTaskNumber))
		if err != nil {
			panic(err)
		}
		defer intermediateFile.Close()
		enc := json.NewEncoder(intermediateFile)
		intermediateFileEncoders = append(intermediateFileEncoders, enc)
	}
	for _, kv := range keyValues {
		err := intermediateFileEncoders[ihash(kv.Key) % nReduce].Encode(kv)
		if err != nil {
			panic(err)
		}
	}
}

总结来说就是：

读取输入文件内容
将内容交个用户定义的Map函数执行，生成键值对
保存键值对

doReduce：

func doReduce(
	jobName string, // the name of the whole MapReduce job
	reduceTask int, // which reduce task this is
	outFile string, // write the output here
	nMap int, // the number of map tasks that were run ("M" in the paper)
	reduceF func(key string, values []string) string,
) {
	//读取当前reduceTaskNumber对应的中间文件中的键值对，将相同的key的value进行并合
	//调用reduceF
	//将reduceF的结果以json形式保存到mergeName()返回的文件中

	kvs := make(map[string][]string)
	for mapTaskNumber := 0; mapTaskNumber < nMap; mapTaskNumber++ {
		midDatafileName := reduceName(jobName, mapTaskNumber, reduceTask)
		file, err := os.Open(midDatafileName)
		if err != nil {
			panic(err)
		}
		defer file.Close()

		dec := json.NewDecoder(file)
		for {
			var kv KeyValue
			err = dec.Decode(&kv)
			if err != nil {
				break
			}
			values, ok := kvs[kv.Key]
			if ok {
				kvs[kv.Key] = append(values, kv.Value)
			} else {
				kvs[kv.Key] = []string{kv.Value}
			}
		}
	}

	outputFile, err := os.Create(outFile)
	if err != nil {
		panic(err)
	}
	defer outputFile.Close()
	enc := json.NewEncoder(outputFile)
	for key, values := range kvs {
		enc.Encode(KeyValue{key, reduceF(key, values)})
	}
}

总结：

读取中间数据
执行reduceF
保存结果

文件转换的过程大致如下：

Part II: Single-worker word count

这部分将用一个简单的实例展示如何使用MR框架。需要我们实现main/wc.go中的mapF()和reduceF()来统计单词的词频。

mapF:

func mapF(filename string, contents string) []mapreduce.KeyValue {
	// Your code here (Part II).
	words := strings.FieldsFunc(contents, func(r rune) bool {
		return !unicode.IsLetter(r)
	})
	var kvs []mapreduce.KeyValue
	for _, word := range words {
		kvs = append(kvs, mapreduce.KeyValue{word, "1"})
	}
	return kvs
}

将文本内容分割成单词，每个单词对应一个<word, "1">键值对。

reduceF:

func reduceF(key string, values []string) string {
	// Your code here (Part II).
	return strconv.Itoa(len(values))
}

value中有多少个"1"，就说明这个word出现了几次。

Part III: Distributing MapReduce tasks

目前实现的版本都是执行完一个map然后在执行下一个map，也就是说没有并行，这恰恰是MapReduce最大的买点。这部分需要实现schedule()，该函数将任务分配给Worker去执行。当然这里并没有真正的多机部署，而是使用多线程进行模拟。
master和worker的关系大致如下：
master&worker
在创建worker对象的时候会调用Register() RPC，master收到RPC后，将该worker的id保存在数组中，执行shedule()是可以根据该id，通过DoTask() RPC调用该worker的DoTask()执行map或reduce任务。

schedule.go

func schedule(jobName string, mapFiles []string, nReduce int, phase jobPhase, registerChan chan string) {
	var ntasks int
	var n_other int // number of inputs (for reduce) or outputs (for map)
	switch phase {
	case mapPhase:
		ntasks = len(mapFiles)
		n_other = nReduce
	case reducePhase:
		ntasks = nReduce
		n_other = len(mapFiles)
	}

	fmt.Printf("Schedule: %v %v tasks (%d I/Os)\n", ntasks, phase, n_other)

	//总共有ntasks个任务，registerChan中保存着空闲的workers
	taskChan := make(chan int)
	var wg sync.WaitGroup
	go func() {
		for taskNumber := 0; taskNumber < ntasks; taskNumber++ {
			taskChan <- taskNumber
			fmt.Printf("taskChan <- %d in %s\n", taskNumber, phase)
			wg.Add(1)

		}

		wg.Wait()							//ntasks个任务执行完毕后才能通过
		close(taskChan)
	}()


	for task := range taskChan {			//所有任务都处理完后跳出循环
		worker := <- registerChan         //消费worker
		fmt.Printf("given task %d to %s in %s\n", task, worker, phase)

		var arg DoTaskArgs
		arg.JobName = jobName
		arg.Phase = phase
		arg.TaskNumber = task
		arg.NumOtherPhase = n_other

		if phase == mapPhase {
			arg.File = mapFiles[task]
		}

		go func(worker string, arg DoTaskArgs) {
			if call(worker, "Worker.DoTask", arg, nil) {
				//执行成功后，worker需要执行其它任务
				//注意：需要先掉wg.Done()，然后调register<-worker，否则会出现死锁
				//fmt.Printf("worker %s run task %d success in phase %s\n", worker, task, phase)
				wg.Done()
				registerChan <- worker  //回收worker
			} else {
				//如果失败了，该任务需要被重新执行
				//注意：这里不能用taskChan <- task，因为task这个变量在别的地方可能会被修改。比如task 0执行失败了，我们这里希望
				//将task 0重新加入到taskChan中，但是因为执行for循环的那个goroutine，可能已经修改task这个变量为1了，我们错误地
				//把task 1重新执行了一遍，并且task 0没有得到执行。
				taskChan <- arg.TaskNumber
			}
		}(worker, arg)

	}
	fmt.Printf("Schedule: %v done\n", phase)

}

这里用到了两个channel，分别是registerChan和taskChan。
registerChan中保存了可用的worker id。
生产：

worker调用Register()进行注册，往里添加
worker成功执行DoTask()后，该worker需要重新加入registerChan

消费：

schedule()拿到一个任务后，消费registerChan

taskChan中保存了任务号。任务执行失败需要重新加入taskChan。

Part IV: Handling worker failures

之前的代码已经体现了，对于失败的任务重新执行。

Part V: Inverted index generation

这是MapReduce的一个应用，生成倒排索引，比如想查某个单词出现在哪些文本中，就可以建立倒排索引来解决。

func mapF(document string, value string) (res []mapreduce.KeyValue) {
	// Your code here (Part V).
	words := strings.FieldsFunc(value, func(r rune) bool {
		return !unicode.IsLetter(r)
	})
	var kvs []mapreduce.KeyValue
	for _, word := range words {
		kvs = append(kvs, mapreduce.KeyValue{word, document})
	}
	return kvs
}

func reduceF(key string, values []string) string {
	// Your code here (Part V).
	values = removeDuplicationAndSort(values)
	return strconv.Itoa(len(values)) + " " + strings.Join(values, ",")
}

func removeDuplicationAndSort(values []string) []string {
	kvs := make(map[string]struct{})
	for _, value := range values {
		_, ok := kvs[value]
		if !ok {
			kvs[value] = struct{}{}
		}
	}
	var ret []string
	for k := range kvs {
		ret = append(ret, k)
	}
	sort.Strings(ret)
	return ret
}

mapF()生成<word, document>的键值对，reduceF()处理word对应的所有document，去重并且排序，然后拼接到一起。

具体代码在：https://github.com/gatsbyd/mit_6.824_2018
如有错误，欢迎指正：
15313676365

posted @ 2019-03-20 20:36 gatsby123 阅读(581) 评论(0) 编辑收藏举报

刷新页面返回顶部

Gatsby123