2024.7.27

本周我集中学习了Hive的查询优化技术,了解了如何使用分区、桶、索引等方式来提升查询性能。同时,我开始学习HBase,了解了HBase的架构、数据模型以及如何使用HBase进行数据存储和检索。此外,Python方面,我练习了更多的数据处理和分析任务,特别是使用Pandas进行数据聚合和可视化。

本周总共花费了大约24小时在学习上。Hive和HBase的学习占据了16小时,Python的学习占据了8小时。

花在编写代码上的时间约为14小时,其中8小时用于编写和优化Hive查询,6小时用于编写HBase数据处理脚本。

本周主要的挑战在于Hive查询的优化。由于数据量较大,查询速度缓慢,通过学习分区和桶的概念并进行实践,最终成功提升了查询性能。解决这些问题花费了约6小时。另外,在HBase中遇到了数据一致性问题,花费了2小时进行排查和修复。

下周计划深入学习HBase的高级特性,如协处理器和时间序列数据的处理。同时,准备开始学习ZooKeeper,了解它在分布式系统中的角色和功能。Python方面,计划开始学习机器学习相关的内容,特别是使用Scikit-learn进行基本的模型训练和评估。

本周在优化Hive查询时,遇到了不少挑战,特别是如何合理地使用分区和索引来提高查询性能。此外,HBase的学习中,遇到了数据一致性的问题,这让我更加意识到在分布式系统中,数据一致性的重要性和复杂性。

posted @ 2024-07-20 21:13  我也不想的  阅读(7)  评论(0)    收藏  举报