2024.7.13

本周主要学习了Hadoop的基本概念和架构,重点放在理解HDFS(Hadoop分布式文件系统)和MapReduce编程模型上。我阅读了Hadoop官方文档,浏览了相关的博客和教程,并且尝试在本地搭建了一个Hadoop集群环境。与此同时,我还进行了Python的基础复习,尤其是针对数据处理和分析的相关库如Pandas和NumPy的使用,完成了一些简单的数据清洗和处理任务。

本周总共花费了大约20小时在学习上。Hadoop相关内容占据了大部分时间,约12小时,Python的学习则占据了剩下的8小时。

花在编写代码上的时间约为10小时,其中6小时用于编写和调试MapReduce作业,4小时用于Python数据处理脚本的编写与测试。

本周遇到的主要问题是Hadoop集群的配置问题,尤其是在配置HDFS时,遇到了权限问题和网络配置的问题。解决这些问题花费了我大约4小时。Python部分遇到的问题相对较少,主要集中在数据清洗时遇到的编码问题,花费了1小时左右解决。

下周计划深入学习Hadoop的YARN(Yet Another Resource Negotiator)调度器的工作原理,同时开始学习Hadoop的高级功能如Hive和Pig。此外,计划继续深入学习Python,特别是与大数据处理相关的库如PySpark的使用。

本周遇到的最大挑战是Hadoop集群的配置,尤其是处理权限和网络问题。这些问题花费了大量时间,虽然最终解决了,但仍有一些配置细节需要进一步学习和理解。

posted @   我也不想的  阅读(8)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示