mapreduce 倒排索引的建立
大道至简
http://blog.csdn.net/hguisu/article/details/7969757
1、map的输入
key: 文档 id value: 文档内容
输出:
key 词:文档id
value 1
2.combine
输入 key list<int>
输出: key: 词 value: 文档id:次数
3.reduce 对于每个词合并,他的
输入 : 词 list<文档id:词频>
输出 词 doc1:frq1
http://www.tuicool.com/articles/NNRRb2