Hadoop点滴-初识MapReduce（1）

分析气候数据，计算出每年全球最高气温（P25页）
Map阶段：输入碎片数据，输出一系列“单键单值”键值对
内部处理，将一系列“单键单值”键值对转化成一系列“单键多值”键值对
Reduce阶段，输入“单键多值”键值对，输出具体结果
Mapper类是一个泛型类型，它有四个形参类型，分别制定map函数的输入键、输入值、输出键、输出值的类型。
Hadoop本身提供了一套可优化网络序列化传输的基本类型，而不直接使用java内嵌的类型。这些类型都在org.apache.hadoop.io包中
Reduce函数也有四个形式参数，用于指定输入和输出类型
reduce函数的输入类型，必须匹配map函数的输出类型
在Hadoop上运行作业时，要把代码打包成JAR文件。Job不在乎JAR的名称，在乎JAR中主函数所在类的名称
构造job对象后，需要指定输入和输出数据的路径，调用FileInputFormat类的静态方法addInputPath()来定义输入数据的路径。这个路径可以是单个文件、一个目录、或复合特定模式的一些列文件。该函数可调用多次，实现多路径输入
调用FileOutputFormat类中的静态方法setOutputPath（）来制定输出路径（只能有一个输出路径），且该路径是不应该存在的。
通过setOutputKeyClass()、setOutputValueClass()方法控制reduce函数的输出类型，必须和reduce类产出的向匹配
map函数的输出类型默认情况下和reduce函数是相同的，不需要单独设置；如果不同，调用setMapOutputKeyClass、setMapOutputValueClss来设置map函数的输出类型
FileInputFormat函数负责完成数据分块，并传递给map
hadoop 的map key是如何来划分：
1. 一般的hadoop任务，有三段传输要搞清楚，首先是hadoop整理给map的输入map(key1,value1)，这段默认是各个文件的每一行作为输入，此时key1是此行在文件中的偏移量，value1则是行号；其次是map输出（key2，value2）这段是给reduce做为输入的，也就是reduce（key2，inter<value2>）的输入；第三部分是reduce输出(key3,value3)。
  map的key一般不是考虑的因素，考虑更多是value的值，比如每个文件做输入，文件内容才是最重要；每行做输入，行内容才是重要。
运行job（Hadoop会启动一个JVM来运行这个类，所以可以通过FileInputFormat静态方法设置输出路径）
export HADOOP_CLASSPATH=hadoop-examples.jar

　　　　hadoop MaxTemperature（类名） input/ncdc/sample.txt（参数一，输入文件路径，本地文件系统） output（参数二，输出文件路径，本地文件系统）

posted on 2018-04-06 22:53 手握太阳阅读(117) 评论(0) 编辑收藏举报

刷新页面返回顶部

手握太阳

Hadoop点滴-初识MapReduce（1）

导航

公告