暑假第八周总结
这一周学习的主要内容是yarn,上一周有一部分MapReduce内容还没有学完,这周进行了收尾,学习了yarn,yarn的内容相对于MapReduce比较少,在学习这两部分的内容时,并没有做在虚拟机上面太多的操作,最熟悉的一个案例是WordCount——计算单词出现的次数。其次,这一周由于在考驾照,有时候一天都在练车,所以学习的事件不是很长。
在学习MapReduce过程中,主要以案例为主,学习完Join、ETL、数据压缩,做了一些案例 使用Join将两张表进行合并、ETL筛选数据(类似于在web界面中对数据输入格式进行限制,但是这里的ETL更适合是将所有的数据进行一次筛选)、数据压缩,首先学习这些案例的原理,其次需要自己编写Mapper(数据的接收和格式处理)、Reducer(接收Mapper数据,对数据进行处理,输出最终的结果)、Driver(向Hadoop提交请求,运行任务),做这些案例的目的是更直观的了解hadoop运行任务时的流程。
在学习yarn的过程中,yarn的基础架构
运行机制
1) MR向ResourceManager申请一个Application
2) RM提供集群路径
3) Job放入切片(开启多少个MApTask)、xml、jar包
4) 申请运行mrApplication
5) RM将用户需求放入队列
6) NodeManager创建容器,运行任务
7) NM根据切片申请Maptask数量
8) NM领取任务,创建容器
9) MRApplication发起启动程序
10) 向RM申请容器,运行ReduceTask脚本
11) Reduce向Map获取响应分区的数据
12) 程序运行完毕,MR向RM申请注销自己
作业全流程
其次,学习了yarn的基本命令操作,并在虚拟机上面实践
注:在yarn的命令操作中,许多命令需要节点id、队列名称,需要熟练掌握查看任务节点的命令
最后,做了一个案例,配置多个队列,在配置参数的内容中,要学会根据需求配置参数,这个案例要在原本queue(default)中新增hive队列,需要自己在配置文件中进行参数配置(在这之前,学会虚拟机的快照功能)。
在这周最后,学习了一部分python内容,目前还在基础学习阶段。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署