hadoop学习(4)
(1)本周学习MapReduce总结:
本周我花了25小时学习MapReduce相关知识。
在学习阶段,我用了15小时来阅读有关MapReduce的文档,了解其概念、工作原理以及Hadoop中的实现方式。
我还花了7小时编写和测试与MapReduce相关的代码,主要是使用Java编写一些MapReduce作业的示例程序。
MapReduce擅长处理大数据,它为什么具有这种能力呢?这可由MapReduce的设计思想发觉。MapReduce的思想就是“分而治之”。
(1)Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义:一是数据或计算的规模相对原任务要大大缩小;二是就近计算原则,即任务会分配到存放着所需数据的节点上进行计算;三是这些小任务可以并行计算,彼此间几乎没有依赖关系。
(2)Reducer负责对map阶段的结果进行汇总。至于需要多少个Reducer,用户可以根据具体问题,通过在mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值,缺省值为1。
(2)下周计划:
下周我计划进一步深入学习自定义类型处理手机上网日志,通过map-reduce实现统计不同手机号用户的上网流量信息
(3)本周遇到的问题:
在学习MapReduce时,我遇到了一些有关作业的性能问题,需要更深入的了解MapReduce调优技巧。
在编写MapReduce作业的代码时,我遇到了一些关于数据输入格式的问题,需要进行数据预处理和清洗。
另外,我还遇到了一些关于Hadoop集群配置和环境设置的问题,这些问题也影响了我的MapReduce作业的执行。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通