摘要: 场景: 一个大小为100T的文件,统计单词"ERROR"和"INFO"的个数 普通做法 是不是效率太低了? 换个方式 说明: 把100T文件分成100份,一台机器保存1T文件。 把程序代码复制100份,在100台机器上运行。 Combiner:对中间结果的合并,减少对带宽的占用,可以不使用,在red 阅读全文
posted @ 2016-03-09 14:52 小N~ 阅读(291) 评论(0) 推荐(0) 编辑