Hadoop总体印象

1.Hadoop架构分两部份:Map与Reduce
2.Hadoop运行总体印象:
             第一步:Hadoop框架将输入的数据(HDFS:分布式文件系统),分割成固定大小的Splits(大小为64M),为每一个Split创建一个Map任务用于执行程序员写的map函数。Split的格式:<K,V>  K->每行首字母在文件中的偏移量     V->每行的字符;如<0,"Hello World">
             第二步:将<K,V>作为参数传递给map(由程序员自定义逻辑处理它),map生成<K1,V1>  K1->为每个字符 V1->出现的次数;
                           如 <‘Hello’,'1'>  <'World','1'>  <'Hello','2'> <'World','2'>
             第三步:对K1进行排序;如 <‘Hello’,'1'><'Hello','2'>     <'World','1'> <'World','2'>
             第四步:Combine进行组合,将结果传给reduce函数;如<‘Hello’,'1,2'> <'World','1,2'>
             第五步:reduce函数(由程序员自定义逻辑处理它)生成结果;如<‘Hello’,'3'> <'World','3'>
             第六步:将结果存入HDFS
posted @ 2012-10-07 22:29  bobsoft  阅读(161)  评论(0编辑  收藏  举报