总结
MapReduce
-
MapReduce是一种用于处理和生成大规模数据的一种算法模型。对于输入数据, 用户指定一种 MapFunc 则可以生成一个个键值对(称作 intermediate) , 这一过程被叫做 Map。对于Intermediate, 用户指定一种 Reduce Function,则可以根据Intermediate 的 key 对Intermediate 进行合并归类, 这一过程被叫做 Reduce
-
注意点:
-
每个map任务会输出多个文件,每个文件中的intermediate经过hash函数取余后值是一样的。由于Reduce任务需要对所有key一样的intermediate执行Reduce Function,所以必须在coordinator中对所有map woker上报的文件进行处理,确保分配给一个reduce woker的所有文件其对应的hash取余是一样的
-
所有map任务执行结束后reduce任务才能执行
-
实现思路
woker
woker比较简单,一直从coordinator获取任务,根据任务类型进行不同的操作,任务完成后把消息上报
func Worker(mapf func(string, string) []KeyValue,
reducef func(string, []string) string) {
for {
task := getTask()
switch task.TaskType {
case TaskNone:
myLog("receive done signal, worker exist")
return
case TaskSleep:
time.Sleep