摘要:
统计第一季度用户的手机上网流量,通话时间,短信数量。 数据格式: 电话 流量 时间 短信数 这里自定义了一个类实现writable接口,用来读取数据。 阅读全文
摘要:
huffle是MapReduce中一个重要的阶段,前几天在面试的时候被问到了。其实我不是一个很会表述理论和原理的人,所以吃了很多亏。这里对shuffle做一个晓得总结。 Map阶段的输出,会经过shuffle过程,然后交给reduce处理。在MapReduce中,为了让Reduce可以并行处理map 阅读全文
该文被密码保护。 阅读全文
摘要:
MapReduce程序的优化主要集中在两个方面:一个是运算性能方面的优化;另一个是IO操作方面的优化。 具体体现在以下的几个环节之上: 1. 任务调度 a. 尽量选择空闲节点进行计算 b. 尽量把任务分配给InputSplit所在机器 2. 数据预处理与InputSplit的大小 尽量处理少量的大数 阅读全文