摘要: 使用自定义partitioner来处理手机上网日志信息 为什么要使用分区? 1.根据业务需要,产生多个输出文件 2.多个reduce任务在运行,提高整体job的运行效率 将上面代码打包导出,复制到Linux中,然后在命令行下执行并查看结果,也可以在chaoren:50030中查看到作业的相关情况 阅读全文
posted @ 2017-04-01 23:24 ahu-lichang 阅读(8560) 评论(0) 推荐(0) 编辑
摘要: Combiner编程(1.5可选步骤,视情况而定!) 每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。 如果不用combine 阅读全文
posted @ 2017-04-01 21:32 ahu-lichang 阅读(6107) 评论(2) 推荐(2) 编辑
摘要: 自定义计数器的使用(记录敏感单词) 在eclipse中运行后,可以在控制台查看到结果: 阅读全文
posted @ 2017-04-01 15:49 ahu-lichang 阅读(412) 评论(0) 推荐(0) 编辑
摘要: WordCountApp命令行运行时指定参数 1、修改之前的WordCountApp.java的代码 2、修改完之后,不是在eclipse中运行,而是要打包导出,然后通过WinSCP复制到Linux中/usr/local目录下。 3、在Linux命令行中运行,运行成功后,在查看运行后的结果。 阅读全文
posted @ 2017-04-01 00:07 ahu-lichang 阅读(610) 评论(0) 推荐(0) 编辑