hadoop学习(4)

（1）本周学习MapReduce总结：

本周我花了25小时学习MapReduce相关知识。

在学习阶段，我用了15小时来阅读有关MapReduce的文档，了解其概念、工作原理以及Hadoop中的实现方式。

我还花了7小时编写和测试与MapReduce相关的代码，主要是使用Java编写一些MapReduce作业的示例程序。

　MapReduce擅长处理大数据，它为什么具有这种能力呢？这可由MapReduce的设计思想发觉。MapReduce的思想就是“分而治之”。

　　（1）Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义：一是数据或计算的规模相对原任务要大大缩小；二是就近计算原则，即任务会分配到存放着所需数据的节点上进行计算；三是这些小任务可以并行计算，彼此间几乎没有依赖关系。

　　（2）Reducer负责对map阶段的结果进行汇总。至于需要多少个Reducer，用户可以根据具体问题，通过在mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值，缺省值为1。

（2）下周计划：

下周我计划进一步深入学习自定义类型处理手机上网日志，通过map-reduce实现统计不同手机号用户的上网流量信息

（3）本周遇到的问题：

在学习MapReduce时，我遇到了一些有关作业的性能问题，需要更深入的了解MapReduce调优技巧。

在编写MapReduce作业的代码时，我遇到了一些关于数据输入格式的问题，需要进行数据预处理和清洗。

另外，我还遇到了一些关于Hadoop集群配置和环境设置的问题，这些问题也影响了我的MapReduce作业的执行。

posted @ 2023-08-05 16:23 旺旺大菠萝阅读(13) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· hadoop学习(8)

· hadoop学习(7)

· 第五周总结

· 假期周进度报告4

· 第四周总结

阅读排行：
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· Manus爆火，是硬核还是营销？
· 终于写完轮子一部分：tcp代理了，记录一下
· 别再用vector＜bool＞了！Google高级工程师：这可能是STL最大的设计失误
· 单元测试从入门到精通

昵称：旺旺大菠萝
园龄： 2年8个月
粉丝： 5
关注： 9

2025年3月

日

一

二

三

四

五

六

fan-wang