01 2025 档案
摘要:from pyspark.sql import SparkSession from pyspark.sql.functions import col # 创建SparkSession spark = SparkSession.builder \ .appName("SparkMonitoringEx
阅读全文
摘要:观看Spark错机制的代码示例,通过设置持久化级别和检查点,确保了Spark程序的可靠性 复习Spark的故障恢复流程
阅读全文
摘要:观看Spark的性能优化技巧教学视频 完成了性能优化的代码示例,通过调整配置参数和优化代码,提升了Spark程序的性能: from pyspark.sql import SparkSession from pyspark.sql.functions import col # 创建SparkSessi
阅读全文
摘要:观看Spark生态体系相关视频,复习了Spark生态体系中的各个组件,总结了它们之间的协同工作方式 学习Spark Core、Spark SQL
阅读全文
摘要:学习了Spark GraphX中的图算法,最短路径、连通分量
阅读全文
摘要:观看了Spark MLlib中的特征提取和转换方法相关视频
阅读全文
摘要:今日学习了Spark MLlib中的聚类和分类算法,如K-Means、随机森林等 完成了聚类和分类算法的代码示例,对一个数据集进行了聚类和分类分析 from pyspark.sql import SparkSession from pyspark.ml.feature import VectorAs
阅读全文
摘要:学习了Spark MLlib机器学习库的基本功能,包括线性回归、逻辑回归和决策树等算法
阅读全文
摘要:继续学习Spark Streaming,重点研究了Spark Streaming的高级特性,如状态管理、窗口操作和滑动窗口 完成了Spark Streaming的高级特性代码示例,实现了一个基于窗口的实时数据统计程序 from pyspark import SparkContext from pys
阅读全文
摘要:今日学习了Spark Streaming的基本原理,包括DStream的创建和操作 完成了Spark Streaming的代码示例,实现了一个简单的实时数据处理程序 from pyspark import SparkContext from pyspark.streaming import Stre
阅读全文
摘要:今日深入学习了Spark SQL的使用方法,了解了DataFrame和Dataset的API 完成了Spark SQL的代码示例,包括数据加载、查询和保存 尝试将Python与Spark SQL结合,运行了一个简单的SQL查询,体验了Spark SQL的便捷性
阅读全文
摘要:今日学习了Spark大数据处理的基本概念,包括RDD的创建、转换和行动操作 完成了几个简单的RDD操作示例,如map、filter、reduceByKey等 通过实际代码,理解了Spark的分布式计算模型和延迟计算机制
阅读全文
摘要:今日深入学习了Python的高级特性,如列表推导式、生成器、装饰器等 完成了Python高级特性的代码示例,编写了一个简单的装饰器用于计时函数执行时间 复习了Python的异常处理机制
阅读全文
摘要:今日学习了Python编程语言的基础知识,包括变量、数据结构、循环和函数等 完成了Python基础语法的练习,编写了简单的数据处理脚本 尝试安装了Python的常用数据处理库(如NumPy、Pandas)
阅读全文
摘要:今日继续学习Scala编程语言,重点研究了Scala的类和对象、继承和特质等面向对象编程特性 完成了Scala类和对象的代码示例,尝试定义了一个简单的类继承结构 阅读了Scala编程规范
阅读全文
摘要:今日深入学习了Scala编程语言的基础语法,包括变量定义、数据类型、控制结构等。 完成了几个简单的Scala代码练习,熟悉了Scala的函数式编程风格。 尝试将Scala与Spark结合,运行了一个简单的WordCount程序,加深了对Scala在Spark中应用的理解。
阅读全文
摘要:今日学习了Spark生态体系的基本概念,了解了Spark的起源、特点以及与其他大数据技术的关系。 完成了Spark生态体系的思维导图绘制,梳理了各组件(如Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX)的功能和用途。
阅读全文