2024.8.17

本周我学习了Kafka的基本原理和架构，了解了它在分布式消息系统中的应用场景。我尝试在本地搭建了一个简单的Kafka集群，并编写了一些Producer和Consumer的代码来测试消息的发送和接收过程。与此同时，我还开始了对Spark Streaming的学习，理解了流数据处理的基本概念，并在本地环境中运行了一些简单的流处理作业。此外，Python方面，我进一步深入研究了Scikit-learn中的模型调优技术，特别是网格搜索（Grid Search）和交叉验证（Cross-Validation）的使用。

本周总共花费了大约30小时在学习上。Kafka的学习和实践占用了14小时，Spark Streaming占用了10小时，Python和机器学习模型调优占用了6小时。

花在编写代码上的时间约为20小时，其中8小时用于编写Kafka Producer和Consumer的代码，7小时用于编写和调试Spark Streaming作业，5小时用于Python模型调优代码的编写。

本周遇到的主要问题是在Kafka集群中，Producer发送消息时遇到的一些网络延迟和数据丢失的问题，解决这些问题花费了约5小时。此外，在Spark Streaming中遇到了窗口操作的配置问题，花费了3小时进行调试和调整。

下周计划深入学习Kafka的高级特性，如分区策略和副本管理，同时继续研究Spark Streaming的窗口操作和状态管理。此外，计划开始学习大数据环境下的分布式机器学习，了解如何在大规模数据集上进行模型训练和优化。

本周在Kafka集群的搭建和使用过程中，遇到了网络延迟和数据丢失的问题，这让我意识到在分布式系统中，网络和数据一致性是非常重要的。此外，Spark Streaming的学习中，遇到了窗口操作的复杂性，这需要进一步深入理解。

posted @ 2024-08-17 23:18 我也不想的阅读(2) 评论(0) 编辑收藏举报

刷新页面返回顶部

（评论功能已被禁用）

相关博文：

· 2024.8.24

· 2024.8.31

· 【学习记录以及要点】2022年10月

· 第四周总结

· 第三周总结

公告

昵称：我也不想的
园龄： 1年11个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

ztydebeishanglaojia

2024.8.17

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜