2024.7.20

本周我进一步学习了Hadoop的YARN框架,重点理解了YARN如何管理资源以及任务的调度过程。我还尝试了使用Python的PySpark库进行大数据处理,运行了一些简单的Spark作业。此外,我还开始了对Hive的学习,了解了Hive的基本概念以及如何使用Hive进行数据查询和分析。

本周总共花费了大约22小时在学习上。学习YARN和Hive占用了12小时,Python和PySpark的学习则占用了10小时。

花在编写代码上的时间约为12小时,其中4小时用于编写和调试PySpark作业,另外8小时用于在Hive中编写和测试SQL查询。

解决问题的时间约为5小时。遇到的主要问题是YARN资源调度过程中出现的内存配置问题,这导致了作业的失败。此外,使用PySpark处理大数据时,遇到了一些性能调优问题,这些问题也花费了相当的时间进行调试和优化。

下周计划继续深入学习Hive,特别是如何优化Hive查询的性能。同时,计划进一步学习Hadoop的其他组件如HBase和ZooKeeper,并且继续练习使用Python进行大数据处理。

本周在学习YARN和PySpark的过程中,遇到了不少资源配置和性能优化方面的问题。这些问题虽然最后得到了初步解决,但我意识到在大数据处理和分布式计算领域,性能优化和资源管理是非常重要的方面。

posted @   我也不想的  阅读(8)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示