摘要: jobhistory: 记录已运行完的MapReduce信息到指定的HDFS目录下 默认不开启 配置: etc/hadoop/mapred-site.xml加入 在sbin目录下使用命令:./mr-jobhistory-daemon.sh start historyserver 使用jps,会发现多 阅读全文
posted @ 2018-02-28 17:02 猴子1 阅读(167) 评论(0) 推荐(0) 编辑
摘要: Partitioner: 二次分类,我的理解是:如果不加Partitioner组件,Reduce会将输入的所有类型数据整合在一个文件,如果加了,可以让reduce根据类型再做一次分类,分出多个Reduce,输出多个文件 图: 代码: 阅读全文
posted @ 2018-02-28 16:36 猴子1 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 步骤: 1、开发作业 2、编译项目并打成jar包,上传至HDFS 3、使用命令(脚本)启动作业 Java代码: maven命令编译项目:mvn clean package -xxx(项目名) 成功后,上传至HDFS,命令:scp xxx/xxx.jar(jar全路径) xxx(用户名)@xxx(ip 阅读全文
posted @ 2018-02-28 15:48 猴子1 阅读(313) 评论(0) 推荐(0) 编辑
摘要: MR编程模型之执行步骤: 1、准备map处理的输入数据 2、mapper处理 3、Shuffle 4、Reduce处理 5、结果输出 (input)<k1,v1> -> map -><k2,v2> -> combine -> <k2,v2> ->reduce -> <k3,v3>(output) 处 阅读全文
posted @ 2018-02-28 15:03 猴子1 阅读(2428) 评论(0) 推荐(0) 编辑
摘要: 提交MR作业到YARN运行 shell命令: hadoop jar (jar包) (处理类) (参数,如果有) 例如:hadoop jar xxxx.jar pi 2 3 阅读全文
posted @ 2018-02-28 10:45 猴子1 阅读(123) 评论(0) 推荐(0) 编辑