每日总结 - 随笔分类 - 连师傅只会helloword

寒假第二十五天

摘要：学习内容函数学习了如何定义函数，包括函数的参数和返回值。掌握了函数的调用方法，了解了局部变量和全局变量的作用域。学习了匿名函数（lambda 表达式）的使用方法。模块与包学习了如何导入和使用 Python 标准库中的模块（如 math、random）。掌握了如何创建自定义模块，并在其他阅读全文

posted @ 2025-02-15 15:28 连师傅只会helloword 阅读(19) 评论(0) 推荐(0)

寒假第二十四天

摘要：学习内容列表与元组学习了列表（list）的定义、索引、切片、添加、删除和修改操作。掌握了元组（tuple）的定义和基本操作，了解了列表与元组的区别。字典与集合学习了字典（dict）的定义、键值对的添加、删除和修改操作。掌握了集合（set）的定义和基本操作，了解了集合的去重特性。字符串操阅读全文

posted @ 2025-02-14 16:27 连师傅只会helloword 阅读(17) 评论(0) 推荐(0)

寒假第二十二天

摘要：学习内容 Python 简介与环境搭建了解了 Python 的历史、特点和应用领域。安装了 Python 3.x 版本，并配置了开发环境（如 IDLE、Jupyter Notebook 或 PyCharm）。学习了如何运行 Python 脚本和交互式命令行。 Python 基础语法学习了 P 阅读全文

posted @ 2025-02-12 09:32 连师傅只会helloword 阅读(20) 评论(0) 推荐(0)

寒假第二十一天

摘要：实验流程超参数调优使用 CrossValidator 进行超参数调优，确定最优的主成分数量（PCA 维数）和分类器参数。通过交叉验证，选择最优的模型参数组合，优化模型的性能。模型优化与验证根据超参数调优的结果，重新训练分类模型。使用测试集验证优化后的模型性能，确保模型的准确性和稳定性。阅读全文

posted @ 2025-02-11 15:32 连师傅只会helloword 阅读(24) 评论(0) 推荐(0)

寒假第二十天

摘要：实验流程训练分类模型在主成分分析的基础上，选择逻辑斯蒂回归模型进行训练。将数据集分为训练集和测试集，使用训练集训练模型。使用测试集验证模型的性能，计算准确率、精确率、召回率等指标。模型评估评估逻辑斯蒂回归模型的性能，分析其在测试集上的表现。根据评估结果，调整模型参数，优化模型性能。实阅读全文

posted @ 2025-02-10 13:27 连师傅只会helloword 阅读(19) 评论(0) 推荐(0)

寒假第十九天

摘要：实验流程进行主成分分析（PCA）选择数据集中的 6 个连续型数值变量进行主成分分析。使用 Spark MLlib 的 PCA 算法，通过 setK() 方法将主成分数量设置为 3。将连续型特征向量转换为 3 维的主成分，并查看转换后的数据。验证 PCA 结果查看转换后的主成分数据，确保降阅读全文

posted @ 2025-02-09 16:00 连师傅只会helloword 阅读(22) 评论(0) 推荐(0)

寒假第十八天

摘要：实验流程实验环境准备确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。下载 Adult 数据集，并上传到 HDFS 或本地文件系统中。数据导入编写 Scala 程序，从文件中导入 Adult 数据集，并将其转换为 DataFrame。查看数据集的基本信息，包括阅读全文

posted @ 2025-02-08 15:43 连师傅只会helloword 阅读(13) 评论(0) 推荐(0)

寒假第十七天

摘要：实验流程测试 Flume 与 Spark Streaming 集成在 Telnet 终端中输入多条消息，验证 Spark Streaming 应用程序是否能够实时处理这些消息。例如，输入“Hello Spark”和“Hello Flume”，验证 Spark Streaming 是否能够正确统阅读全文

posted @ 2025-02-07 15:44 连师傅只会helloword 阅读(21) 评论(0) 推荐(0)

寒假第二十三天

摘要：学习内容运算符与表达式学习了 Python 中的算术运算符（+、-、*、/、%、**）。掌握了比较运算符（==、!=、>、<、>=、<=）和逻辑运算符（and、or、not）。了解了赋值运算符（=、+=、-= 等）和成员运算符（in、not in）。控制结构学习了条件语句 if、elif 阅读全文

posted @ 2025-02-06 13:27 连师傅只会helloword 阅读(19) 评论(0) 推荐(0)

寒假第十六天

摘要：实验流程配置 Flume 作为 Spark Streaming 数据源配置 Flume 的 flume-spark.conf 文件，设置 netcat 源和 avro Sink。启动 Flume，确保数据能够通过 netcat 源输入，并通过 avro Sink 输出。编写 Spark St 阅读全文

posted @ 2025-02-06 09:04 连师傅只会helloword 阅读(20) 评论(0) 推荐(0)

实验第十五天

摘要：实验流程使用 netcat 数据源测试 Flume 配置 Flume 的 netcat.conf 文件，设置 netcat 源和 Sink。在一个终端中启动 Flume。在另一个终端中使用 telnet localhost 44444 命令连接 Flume。在 Telnet 终端中输入字符，阅读全文

posted @ 2025-02-05 11:09 连师傅只会helloword 阅读(18) 评论(0) 推荐(0)

实验第十四天

摘要：实验流程实验环境准备确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。下载 Flume 1.7.0 安装文件，并解压到 /usr/local/flume 目录。配置 Flume 的环境变量，确保 Flume 能够正常运行。安装 Flume 参考实验指南，完成 F 阅读全文

posted @ 2025-02-04 16:42 连师傅只会helloword 阅读(31) 评论(0) 推荐(0)

寒假第十三天

摘要：实验流程编程实现利用 DataFrame 读写 MySQL 的数据在 MySQL 数据库中新建数据库 sparktest，并创建表 employee，插入初始数据：配置 Spark 通过 JDBC 连接 MySQL 数据库。编写 Scala 程序，读取 MySQL 中的 employee 表阅读全文

posted @ 2025-02-03 10:25 连师傅只会helloword 阅读(18) 评论(0) 推荐(0)

寒假第十二天

摘要：实验流程编程实现将 RDD 转换为 DataFrame 编写 Scala 程序，读取 employee.txt 文件，创建 RDD。将 RDD 转换为 DataFrame，并定义列名（id、name、age）。按“id:1,name:Ella ,age:36”的格式打印 DataFrame 的阅读全文

posted @ 2025-02-02 20:52 连师傅只会helloword 阅读(14) 评论(0) 推荐(0)

寒假第十一天

摘要：实验流程实验环境准备确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。安装 MySQL 数据库，并配置 Spark 的 JDBC 连接支持。准备实验数据文件 employee.json 和 employee.txt，并上传到 Linux 系统中。 Spark SQ 阅读全文

posted @ 2025-02-01 10:50 连师傅只会helloword 阅读(19) 评论(0) 推荐(0)

寒假第十天

摘要：实验流程编写独立应用程序实现求平均值问题创建 Scala 项目，配置 sbt 构建工具。编写 Spark 独立应用程序，读取多个输入文件（Algorithm、Database、Python 成绩），创建 RDD。使用 map 操作将每行数据转换为 (学生姓名, 成绩) 的键值对。使用 re 阅读全文

posted @ 2025-01-31 17:51 连师傅只会helloword 阅读(24) 评论(0) 推荐(0)

寒假第九天

摘要：实验流程编写独立应用程序实现数据去重创建 Scala 项目，配置 sbt 构建工具。编写 Spark 独立应用程序，读取输入文件 A 和 B，创建两个 RDD。使用 union 操作合并两个 RDD，并通过 distinct 操作去重。将去重后的结果保存到新文件 C 中。使用 spark 阅读全文

posted @ 2025-01-30 12:43 连师傅只会helloword 阅读(27) 评论(0) 推荐(0)

寒假第八天

摘要：实验流程实验环境准备确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。下载实验数据集 chapter5-data1.txt，并上传到 HDFS 或本地文件系统中。 spark-shell 交互式编程启动 spark-shell，加载数据集 chapter5-dat 阅读全文

posted @ 2025-01-29 14:38 连师傅只会helloword 阅读(22) 评论(0) 推荐(0)

寒假第七天

摘要：实验流程 Spark 读取 HDFS 文件启动 spark-shell，读取 HDFS 中的文件 /user/hadoop/test.txt，并统计文件的行数。验证统计结果是否正确。编写独立应用程序编写一个独立的 Scala 应用程序，读取 HDFS 中的文件 /user/hadoop/te 阅读全文

posted @ 2025-01-28 17:37 连师傅只会helloword 阅读(8) 评论(0) 推荐(0)

寒假第六天

摘要：实验流程 HDFS 常用操作使用 hadoop 用户名登录 Linux 系统，启动 Hadoop 服务。在 HDFS 中创建用户目录 /user/hadoop。在本地文件系统的 /home/hadoop 目录下新建一个文本文件 test.txt，并上传到 HDFS 的 /user/hadoop 阅读全文

posted @ 2025-01-27 16:37 连师傅只会helloword 阅读(17) 评论(0) 推荐(0)

随笔分类 - 每日总结

公告