代码改变世界

随笔分类 -  Hadoop&&Streaming框架学习

Hadoop Streaming框架学习(二)

2013-08-21 11:30 by ATP_, 5062 阅读, 收藏, 编辑
摘要: 1.常用Streaming命令介绍 使用下面的命令运行Streaming MapReduce程序: 1: $HADOOP_HOME/bin/hadoop/hadoop streaming args其中args是streaming参数,下面是参数列表:-input 输入数据路径-output 输出数据路径-mapper mapper可执行程序或Java类-reducer reducer可执行程序或Java类-file Optional分发本地文件-cacheFile Optional分发HDFS文件-cacheArchive Optional分发HDFS压缩文件-numReduce... 阅读全文

Hadoop Streaming框架学习(一)

2013-08-19 12:32 by ATP_, 5928 阅读, 收藏, 编辑
摘要: 1.Hadoop&Streaming简介 1.1 Hadoop简介 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架,这个框架解决了诸如数据分布式存储,作业调度,容错,机器间通信等复杂问题,可以让没有分布式处理经验的工程师非常简单的写出并行分布式程序。 MapReduce采用“分而治之”的思想,将计算任务抽象成Map和Reduce两个计算过程:A.首先把输入分割成不相关的若干键值(key1/value1)集合,这些键值会有多个map任务来并行处理。B.MapReduce会对map的输出(一些中间键值对key2/value2集合)按照key2进行排序,排序用memc 阅读全文