hadoop编程模型 - rigidwang - 博客园

hadoop编程模型

1. 拷贝数据

将一个超大的数据文件拷贝到hadoop集群中，hdfs将其分割成多个数据块，然后再把每一个数据块放到不同的节点里面。

2. map函数

提交一个map函数，此map函数可以被jobchacker进程分配到多个节点里面去运行，对分在那个节点所在机器里面的数据进行map。

3. shuffe预处理

将map结果进行排序然后列表化，其实shuffe就是对map结果进行reduce之前的预处理从而来减少网络数据量的传输，分担reduce的压力

4. reduce

对map阶段的结果进行汇总并计算最终结果，然后将结果输出到hdfs中。

posted on 2014-07-15 13:40 rigidwang 阅读(178) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区，博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

导航

公告