随笔分类 - 每日总结
摘要:学习内容 函数 学习了如何定义函数,包括函数的参数和返回值。 掌握了函数的调用方法,了解了局部变量和全局变量的作用域。 学习了匿名函数(lambda 表达式)的使用方法。 模块与包 学习了如何导入和使用 Python 标准库中的模块(如 math、random)。 掌握了如何创建自定义模块,并在其他
阅读全文
摘要:学习内容 列表与元组 学习了列表(list)的定义、索引、切片、添加、删除和修改操作。 掌握了元组(tuple)的定义和基本操作,了解了列表与元组的区别。 字典与集合 学习了字典(dict)的定义、键值对的添加、删除和修改操作。 掌握了集合(set)的定义和基本操作,了解了集合的去重特性。 字符串操
阅读全文
摘要:学习内容 Python 简介与环境搭建 了解了 Python 的历史、特点和应用领域。 安装了 Python 3.x 版本,并配置了开发环境(如 IDLE、Jupyter Notebook 或 PyCharm)。 学习了如何运行 Python 脚本和交互式命令行。 Python 基础语法 学习了 P
阅读全文
摘要:实验流程 超参数调优 使用 CrossValidator 进行超参数调优,确定最优的主成分数量(PCA 维数)和分类器参数。 通过交叉验证,选择最优的模型参数组合,优化模型的性能。 模型优化与验证 根据超参数调优的结果,重新训练分类模型。 使用测试集验证优化后的模型性能,确保模型的准确性和稳定性。
阅读全文
摘要:实验流程 训练分类模型 在主成分分析的基础上,选择逻辑斯蒂回归模型进行训练。 将数据集分为训练集和测试集,使用训练集训练模型。 使用测试集验证模型的性能,计算准确率、精确率、召回率等指标。 模型评估 评估逻辑斯蒂回归模型的性能,分析其在测试集上的表现。 根据评估结果,调整模型参数,优化模型性能。 实
阅读全文
摘要:实验流程 进行主成分分析(PCA) 选择数据集中的 6 个连续型数值变量进行主成分分析。 使用 Spark MLlib 的 PCA 算法,通过 setK() 方法将主成分数量设置为 3。 将连续型特征向量转换为 3 维的主成分,并查看转换后的数据。 验证 PCA 结果 查看转换后的主成分数据,确保降
阅读全文
摘要:实验流程 实验环境准备 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。 下载 Adult 数据集,并上传到 HDFS 或本地文件系统中。 数据导入 编写 Scala 程序,从文件中导入 Adult 数据集,并将其转换为 DataFrame。 查看数据集的基本信息,包括
阅读全文
摘要:实验流程 测试 Flume 与 Spark Streaming 集成 在 Telnet 终端中输入多条消息,验证 Spark Streaming 应用程序是否能够实时处理这些消息。 例如,输入“Hello Spark”和“Hello Flume”,验证 Spark Streaming 是否能够正确统
阅读全文
摘要:学习内容 运算符与表达式 学习了 Python 中的算术运算符(+、-、*、/、%、**)。 掌握了比较运算符(==、!=、>、<、>=、<=)和逻辑运算符(and、or、not)。 了解了赋值运算符(=、+=、-= 等)和成员运算符(in、not in)。 控制结构 学习了条件语句 if、elif
阅读全文
摘要:实验流程 配置 Flume 作为 Spark Streaming 数据源 配置 Flume 的 flume-spark.conf 文件,设置 netcat 源和 avro Sink。 启动 Flume,确保数据能够通过 netcat 源输入,并通过 avro Sink 输出。 编写 Spark St
阅读全文
摘要:实验流程 使用 netcat 数据源测试 Flume 配置 Flume 的 netcat.conf 文件,设置 netcat 源和 Sink。 在一个终端中启动 Flume。 在另一个终端中使用 telnet localhost 44444 命令连接 Flume。 在 Telnet 终端中输入字符,
阅读全文
摘要:实验流程 实验环境准备 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。 下载 Flume 1.7.0 安装文件,并解压到 /usr/local/flume 目录。 配置 Flume 的环境变量,确保 Flume 能够正常运行。 安装 Flume 参考实验指南,完成 F
阅读全文
摘要:实验流程 编程实现利用 DataFrame 读写 MySQL 的数据 在 MySQL 数据库中新建数据库 sparktest,并创建表 employee,插入初始数据: 配置 Spark 通过 JDBC 连接 MySQL 数据库。 编写 Scala 程序,读取 MySQL 中的 employee 表
阅读全文
摘要:实验流程 编程实现将 RDD 转换为 DataFrame 编写 Scala 程序,读取 employee.txt 文件,创建 RDD。 将 RDD 转换为 DataFrame,并定义列名(id、name、age)。 按“id:1,name:Ella ,age:36”的格式打印 DataFrame 的
阅读全文
摘要:实验流程 实验环境准备 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。 安装 MySQL 数据库,并配置 Spark 的 JDBC 连接支持。 准备实验数据文件 employee.json 和 employee.txt,并上传到 Linux 系统中。 Spark SQ
阅读全文
摘要:实验流程 编写独立应用程序实现求平均值问题 创建 Scala 项目,配置 sbt 构建工具。 编写 Spark 独立应用程序,读取多个输入文件(Algorithm、Database、Python 成绩),创建 RDD。 使用 map 操作将每行数据转换为 (学生姓名, 成绩) 的键值对。 使用 re
阅读全文
摘要:实验流程 编写独立应用程序实现数据去重 创建 Scala 项目,配置 sbt 构建工具。 编写 Spark 独立应用程序,读取输入文件 A 和 B,创建两个 RDD。 使用 union 操作合并两个 RDD,并通过 distinct 操作去重。 将去重后的结果保存到新文件 C 中。 使用 spark
阅读全文
摘要:实验流程 实验环境准备 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。 下载实验数据集 chapter5-data1.txt,并上传到 HDFS 或本地文件系统中。 spark-shell 交互式编程 启动 spark-shell,加载数据集 chapter5-dat
阅读全文
摘要:实验流程 Spark 读取 HDFS 文件 启动 spark-shell,读取 HDFS 中的文件 /user/hadoop/test.txt,并统计文件的行数。 验证统计结果是否正确。 编写独立应用程序 编写一个独立的 Scala 应用程序,读取 HDFS 中的文件 /user/hadoop/te
阅读全文
摘要:实验流程 HDFS 常用操作 使用 hadoop 用户名登录 Linux 系统,启动 Hadoop 服务。 在 HDFS 中创建用户目录 /user/hadoop。 在本地文件系统的 /home/hadoop 目录下新建一个文本文件 test.txt,并上传到 HDFS 的 /user/hadoop
阅读全文