Hadoop总体印象

1.Hadoop架构分两部份：Map与Reduce

2.Hadoop运行总体印象：

第一步：Hadoop框架将输入的数据（HDFS：分布式文件系统），分割成固定大小的Splits(大小为64M)，为每一个Split创建一个Map任务用于执行程序员写的map函数。Split的格式：<K,V> K->每行首字母在文件中的偏移量 V->每行的字符；如<0,"Hello World">

第二步：将<K,V>作为参数传递给map(由程序员自定义逻辑处理它)，map生成<K1,V1> K1->为每个字符 V1->出现的次数；

如 <‘Hello’,'1'> <'World','1'> <'Hello','2'> <'World','2'>

第三步：对K1进行排序；如 <‘Hello’,'1'><'Hello','2'> <'World','1'> <'World','2'>

第四步：Combine进行组合，将结果传给reduce函数；如<‘Hello’,'1,2'> <'World','1,2'>

第五步：reduce函数（由程序员自定义逻辑处理它）生成结果；如<‘Hello’,'3'> <'World','3'>

第六步：将结果存入HDFS

posted @ 2012-10-07 22:29 bobsoft 阅读(161) 评论(0) 编辑收藏举报

刷新页面返回顶部

bobsoft