hadoop学习(4)

 

1)本周学习MapReduce总结:

   本周我花了25小时学习MapReduce相关知识。

   在学习阶段,我用了15小时来阅读有关MapReduce的文档,了解其概念、工作原理以及Hadoop中的实现方式。

   我还花了7小时编写和测试与MapReduce相关的代码,主要是使用Java编写一些MapReduce作业的示例程序。

 MapReduce擅长处理大数据,它为什么具有这种能力呢?这可由MapReduce的设计思想发觉。MapReduce的思想就是分而治之

  (1Mapper负责,即把复杂的任务分解为若干个简单的任务来处理。简单的任务包含三层含义:一是数据或计算的规模相对原任务要大大缩小;二是就近计算原则,即任务会分配到存放着所需数据的节点上进行计算;三是这些小任务可以并行计算,彼此间几乎没有依赖关系。

  (2Reducer负责对map阶段的结果进行汇总。至于需要多少个Reducer,用户可以根据具体问题,通过在mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值,缺省值为1

(2)下周计划:

下周我计划进一步深入学习自定义类型处理手机上网日志通过map-reduce实现统计不同手机号用户的上网流量信息

3)本周遇到的问题:

   在学习MapReduce时,我遇到了一些有关作业的性能问题,需要更深入的了解MapReduce调优技巧。

  在编写MapReduce作业的代码时,我遇到了一些关于数据输入格式的问题,需要进行数据预处理和清洗。

   另外,我还遇到了一些关于Hadoop集群配置和环境设置的问题,这些问题也影响了我的MapReduce作业的执行。

posted @   旺旺大菠萝  阅读(13)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示