02 2024 档案
摘要:一、架构的定义 所谓一千个架构师中有一千种“最好的架构”模式。 “架构”是我们这行业种一个很常见的词,表明其必然也是经历了很长的岁月打磨所形成的一个词。架构的这个词出现的意义是什么?为了解决什么问题?只有把这2个问题想明白了,才能设计出一个良好的项目架构。 我认为 架构类似于画房屋设计图,在刚开始我
阅读全文
摘要:性能调优和集群管理是 Apache Spark 应用程序开发中非常重要的两个方面,它们可以帮助提高应用程序的执行效率和稳定性。以下是关于性能调优和集群管理的介绍: 性能调优 数据倾斜处理: 数据倾斜是指在分布式计算过程中某些任务处理的数据量远大于其他任务的情况。可以通过重新分区、使用合适的聚合策略等
阅读全文
摘要:在主体都学习完后,我又学习的一些其他知识,如Spark MLlib。 Spark MLlib 是 Apache Spark 中的机器学习库,提供了一套丰富的机器学习算法和工具,旨在帮助开发人员轻松构建和部署大规模的机器学习应用程序。 通用机器学习算法: Spark MLlib 提供了一系列通用的机器
阅读全文
摘要:Spark Streaming 是 Spark 提供的流式数据处理模块,能够处理实时数据流。Spark Streaming 将实时数据流按照一定的时间间隔切分成批次数据,然后再将每个批次的数据作为 RDD 进行处理。Spark Streaming 支持多种数据源,例如 Kafka、Flume、HDF
阅读全文
摘要:学习spark就绕不开spark sql,今天我就学习了spark的数据库操作: 创建 SparkSession: 在 Spark 中使用 Spark SQL 时,首先需要创建一个 SparkSession 对象,它是 Spark SQL 的入口点。可以通过 SparkSession.builder
阅读全文
摘要:昨天我已经安装好spark,今天进入学习阶段,首先学习spark的一些基础编程: Spark 应用程序: Spark 应用程序由一个驱动器程序(Driver Program)和多个执行器(Executors)组成。驱动器程序负责在集群上运行主程序并创建 Spark 上下文,而执行器负责在工作节点上执
阅读全文
摘要:今天我开始学习spark基础知识,首先从他的基本概念和理论开始入手: RDD(Resilient Distributed Dataset): RDD 是 Spark 提供的一个抽象数据类型,代表一个可以分布式计算的数据集合。它是 Spark 中最基本的数据结构,具有以下特点: 分区(Partitio
阅读全文