01 2025 档案
摘要:RDD 基础概念与环境配置 理解 RDD 的基本概念和特性。熟悉 RDD 的创建方法。完成 Spark 环境的配置和测试。 RDD 理论知识:RDD 的定义:RDD 是 Spark 的核心数据结构,是一个分布式的数据集合,具有不可变性、分区性和容错性。RDD 的特性:弹性、分布式、不可变、懒加载、分
阅读全文
摘要:RDD 转换为 DataFrame学习记录:学习实验题目中的“编程实现将 RDD 转换为 DataFrame”部分。将 employee.txt 文件中的数据加载为 RDD。 // 创建 SparkSessionval spark = SparkSession.builder() .appName(
阅读全文
摘要:Spark SQL 基本操作学习记录:学习实验题目中的“Spark SQL 基本操作”部分。将 JSON 数据保存为 employee.json 文件,并加载到 Spark SQL 中。 // 创建 SparkSessionval spark = SparkSession.builder() .ap
阅读全文
摘要:超参数调优基础学习目标:理解超参数调优的基本原理和应用场景。学习如何在 Spark MLlib 中使用 CrossValidator 进行超参数调优。学习内容:学习超参数调优的基本原理。使用 CrossValidator 确定最优的主成分数目和分类器参数。对 Test 数据集进行验证,评估调优后的模
阅读全文
摘要:分类模型实验与结果分析学习目标:完成分类模型实验并分析结果。学习如何评估分类模型的性能。学习内容:运行分类模型代码,观察预测结果。分析模型性能,评估分类效果。学习如何调整模型参数以提高性能。 import org.apache.spark.ml.evaluation.BinaryClassifica
阅读全文
摘要:分类模型基础学习目标:理解分类模型的基本原理和应用场景。学习如何在 Spark MLlib 中使用逻辑斯蒂回归和决策树模型。学习内容:学习逻辑斯蒂回归和决策树的基本原理。使用降维后的数据训练逻辑斯蒂回归模型。对 Test 数据集进行预测,评估模型性能。 import org.apache.spark
阅读全文
摘要:主成分分析(PCA)基础学习目标:理解 PCA 的原理和应用场景。学习如何在 Spark MLlib 中使用 PCA。学习内容:学习 PCA 的基本原理。使用 Spark MLlib 中的 PCA 对数据进行降维。设置主成分数目为 3,将特征向量投影到低维空间。学习如何可视化 PCA 结果。 imp
阅读全文
摘要:数据导入与预处理学习目标:掌握如何从文件中导入数据并转化为 DataFrame。学习如何处理数据集中的缺失值和类别型变量。学习内容:下载 Adult 数据集。使用 Scala 代码从文件中读取数据并转化为 DataFrame。处理数据集中的缺失值和类别型变量。学习如何使用 Spark SQL 对 D
阅读全文
摘要:第十二天:Spark 环境配置与基础学习目标:熟悉 Spark 环境,完成基本配置。学习内容:配置 Spark 和 Scala 环境。启动 Spark Shell,测试环境是否正常运行。学习如何在 Scala 中操作 RDD 和 DataFrame。 spark-shellval data = sc
阅读全文
摘要:第十一天:完成查重任务 上学期大数据有一个期末作业在做一遍。 实验目的:明确实验的目标和意义。实验内容:详细描述实验过程和代码实现。实验结果:展示实验的输出结果。实验总结:总结实验过程中的收获和不足. (一)编程实现文件合并和去重操作 对于两个输入文件,即文件A和文件B,请编写MapReduce程序
阅读全文
摘要:第十天:学生成绩统计实验学习任务学习如何读取文件数据并解析为 Scala 数据结构。使用函数式编程方式统计学生成绩,包括平均值、最小值和最大值。按性别分组统计成绩。学习内容文件读取:使用 scala.io.Source 读取文件。数据解析:解析文件内容为 List 或 Array。成绩统计:使用函数
阅读全文
摘要:第九天:函数式编程基础学习任务学习函数式编程的基本概念,包括匿名函数、高阶函数和不可变数据。使用函数式编程方式处理数据,练习 map、filter 和 reduce 等方法。学习内容函数式编程基础:匿名函数:x => x * 2。高阶函数:map、filter、reduce。不可变数据:val 和不
阅读全文
摘要:第九天:函数式编程基础学习任务学习函数式编程的基本概念,包括匿名函数、高阶函数和不可变数据。使用函数式编程方式处理数据,练习 map、filter 和 reduce 等方法。学习内容函数式编程基础:匿名函数:x => x * 2。高阶函数:map、filter、reduce。不可变数据:val 和不
阅读全文
摘要:第八天:模拟图形绘制实验学习任务学习如何定义抽象类和抽象方法。实现 Shape 抽象类,包含 moveTo 和 zoom 方法。实现 Line 类和 Circle 类,继承 Shape 并混入 Drawable 特质。重载 draw 方法,实现图形的绘制。学习内容抽象类和抽象方法:定义抽象类和抽象方
阅读全文
摘要:第七天:计算级数实验学习任务学习如何通过脚本方式编写 Scala 程序。实现计算级数的程序,计算并输出级数的前 n 项之和 Sn,直到 Sn 大于等于输入的 q。学习内容脚本编写:使用 object 定义主程序。接收键盘输入。级数计算:使用循环和条件语句实现级数计算。代码示例 import scal
阅读全文
摘要:第六天:实验环境搭建与 Scala 基础语法学习学习任务搭建 Scala 开发环境。学习 Scala 基本语法,包括变量定义、数据类型、控制结构。熟悉 REPL 运行模式,练习基本的 Scala 表达式和函数定义。学习 Scala 的数据结构,包括数组、列表、集合等。类和对象:class 和 obj
阅读全文
摘要:第五天:网络编程与爬虫基础学习内容:学习 Python 的 socket 库,了解如何使用 socket 创建客户端和服务器端程序,实现简单的网络通信。学习 HTTP 协议的基本概念和请求方法,了解网页的结构和内容。学习使用 Python 的 requests 库发送 HTTP 请求,获取网页内容,
阅读全文
摘要:第四天:文件操作与异常处理学习内容:学习文件的打开和关闭方法,使用 open() 函数以不同的模式打开文件,了解文件指针的概念。学习文件的读写操作,包括读取整个文件内容、按行读取、写入文件等方法。学习异常的概念和类型,了解 Python 中常见的异常。学习使用 try、except、finally
阅读全文
摘要:第三天:Python数据库操作学习内容:学习数据库的基本概念,如关系型数据库、非关系型数据库、表、字段、记录等。学习使用 Python 的 sqlite3 模块操作 SQLite 数据库,包括创建数据库、创建表、插入数据、查询数据、更新数据和删除数据等操作。学习 SQL 语句的基本语法,如 CREA
阅读全文
摘要:第二天:数据类型与运算符深入理解 Python 的各种数据类型,熟练掌握运算符的使用。学习内容:详细学习字符串的操作方法,如字符串拼接、索引、切片、字符串方法。学习列表的创建、添加元素、删除元素、列表切片和遍历等操作。学习元组的概念和基本操作,了解元组与列表的区别。学习集合(set)的概念、创建、添
阅读全文
摘要:第一天:Python 基础语法了解 Python 的基本概念、安装与配置环境,掌握基础语法结构。学习内容:安装 Python 解释器,配置环境变量。学习 Python 基本语法了解 Python 的缩进规则和基本语句结构,如赋值语句、表达式等。学习变量的定义、命名规则和数据类型,掌握类型转换方法。
阅读全文