01 2025 档案
摘要:学习内容:配置Spark集群。日志管理和错误排查。常见问题及解决方案。
阅读全文
摘要:学习内容:并行度设置(partition数)。数据本地性与Shuffle优化。使用Spark UI监控作业。
阅读全文
摘要:学习内容:图计算的基本概念。GraphX的数据结构(VertexRDD、EdgeRDD)。基本图算法(PageRank、最短路径等)。
阅读全文
摘要:学习内容:MLlib支持的算法(分类、回归、聚类等)。数据预处理和特征提取。模型训练与评估。
阅读全文
摘要:学习内容:窗口操作和滑动窗口。更新状态和检查点机制。Kafka与Spark Streaming的集成。
阅读全文
摘要:学习内容:流式处理的基本概念。DStream(离散流)的工作原理。Spark Streaming的应用场景。
阅读全文
摘要:学习内容:UDF(用户自定义函数)的使用。数据分组、排序和窗口函数。Hive集成。
阅读全文
摘要:学习内容:DataFrame和Dataset的概念。使用Spark SQL读取和写入CSV/JSON文件。SQL查询的基本语法。
阅读全文
摘要:学习内容:Transformation(转换)和Action(行动)的区别。常见的Transformation操作(map、filter、reduceByKey等)。Action操作(collect、count、take等)。
阅读全文
摘要:学习内容: Spark集群模式(Standalone、YARN、Mesos)。 RDD(Resilient Distributed Dataset)的概念及操作。 Driver Program和Executor的角色。
阅读全文
摘要:学习内容:Apache Spark是什么?Spark的核心组件(Spark Core、SQL、Streaming、MLlib、GraphX)。Spark与其他大数据技术(如Hadoop)的区别。
阅读全文