08 2024 档案
摘要:在第七周,我决定进一步扩展对Hadoop生态系统中其他工具的了解,以便掌握更多数据处理框架的优势和特性。我集中精力学习了Apache Spark和Apache Flink这两个流行的框架,并比较它们与Hadoop的区别和各自的应用场景。 我通过阅读官方文档、参加在线课程和观看相关视频,深入了解了Sp
阅读全文
摘要:在第六周,我将学习重点放在了一个实际的数据处理与分析项目上,以便将我所学的Hadoop和Hive知识应用于解决实际问题。我选择了一个公开的数据集,涵盖了一些具有挑战性的分析任务,这让我充满期待。 首先,我使用Hadoop的MapReduce框架对数据进行了预处理。这个阶段包括数据清洗、格式化和初步的
阅读全文
摘要:在第五周,我的学习重点转向了Hive与Hadoop的集成。为了更好地理解这一过程,我首先复习了Hadoop的基本概念,确保自己对其架构和工作原理有清晰的认识。我重新梳理了HDFS、MapReduce和YARN的功能及其在大数据处理中的重要性,这为我后续的学习打下了坚实的基础。 随后,我开始学习如何在
阅读全文
摘要:在第四周,我继续深入学习Hive的高级特性,着重研究了Hive的分区和桶的概念。这两种数据组织方式在处理大数据时具有显著的优势,可以帮助提高查询性能。我了解到,分区是将数据按照某些特定的列进行切分,每个分区对应着HDFS上的一个子目录,从而允许Hive在查询时只扫描相关分区,而不是全表扫描。这种方式
阅读全文