02 2025 档案

摘要:1. 精确性、正确性和准确性很明显,对测量感到兴奋的科学家就相关的专业用语展开了喋喋不休的争论。你只需在维基百科上查找一下“准确性”这个词,就会发现关于究竟应该使用哪些词来解释已经达成一致的概念有多少争议了。我选择使用 1994 版的 ISO 5725-1 中的上下文来解释术语:“测量方法和结果中的 阅读全文
posted @ 2025-02-27 20:44 欧吼吼 阅读(2) 评论(0) 推荐(0) 编辑
摘要:如果程序只是运行一个计算密集型的任务,那么分析器会自动地告诉我们程序中的热点在哪里。不过如果程序要做许多不同的处理,可能在分析器看来,没有任何一个函数是热点。程序还有可能会花费大量的时间等待 I/O 或是外部事件,这样降低了程序的性能,增加了程序的实际运行时间。在这种情况下,我们需要测量程序中各个部 阅读全文
posted @ 2025-02-27 20:44 欧吼吼 阅读(3) 评论(0) 推荐(0) 编辑
摘要:摘要:随着互联网的飞速发展,大型网站面临着海量用户访问、高并发请求以及数据快速增长等挑战。为了满足用户对网站性能和可用性的高要求,本文深入分析了大型网站高性能、高可用架构的设计原则和关键技术。首先介绍了大型网站架构的特点和目标,然后分别从性能、可用性、伸缩性、扩展性和安全性五个方面详细阐述了架构设计 阅读全文
posted @ 2025-02-26 23:12 欧吼吼 阅读(8) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.streaming.flume.FlumeUtils objec 阅读全文
posted @ 2025-02-26 23:12 欧吼吼 阅读(2) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.streaming.flume.FlumeUtils objec 阅读全文
posted @ 2025-02-26 23:11 欧吼吼 阅读(2) 评论(0) 推荐(0) 编辑
摘要:探索现代软件架构的发展与实践 引言软件架构是软件系统的基础框架,它不仅定义了系统的结构和组织方式,还影响着系统的性能、可扩展性、安全性等多个方面。从20世纪60年代大型机时代的单体应用到如今的微服务架构和无服务器架构,软件架构经历了翻天覆地的变化。随着互联网技术的迅猛发展,用户对软件的需求也日益复杂 阅读全文
posted @ 2025-02-26 10:59 欧吼吼 阅读(5) 评论(0) 推荐(0) 编辑
摘要:今天学习训练本地大模型。 阅读全文
posted @ 2025-02-24 08:46 欧吼吼 阅读(2) 评论(0) 推荐(0) 编辑
摘要:11)head命令:取出前面几行 (1)查看当前用户主文件夹下.bashrc文件内容前20行 (2)查看当前用户主文件夹下.bashrc文件内容,后面50行不显示,只显示前面几行 12)tail命令:取出后面几行 (1)查看当前用户主文件夹下.bashrc文件内容最后20行 (2)查看当前用户主文件 阅读全文
posted @ 2025-02-21 16:47 欧吼吼 阅读(5) 评论(0) 推荐(0) 编辑
摘要:列传统并行计算框架,说法错误的是哪一项? A. 刀片服务器、高速网、SAN,价格贵,扩展性差上 B. 共享式(共享内存/共享存储),容错性好 C. 编程难度高 D. 实时、细粒度计算、计算密集型 我的答案: B:共享式(共享内存/共享存储),容错性好;正确答案: B:共享式(共享内存/共享存储),容 阅读全文
posted @ 2025-02-21 16:46 欧吼吼 阅读(3) 评论(0) 推荐(0) 编辑
摘要:今天进行了一个测验,对日志文件进行数据清洗,通过hive数据库进行统计,然后再将数据导入到mysql数据库中进行图形化界面展示。在这之中遇到了一些问题,解决的了一些,还有一些没有解决。 阅读全文
posted @ 2025-02-19 21:39 欧吼吼 阅读(4) 评论(0) 推荐(0) 编辑
摘要:实验流程 超参数调优 使用 CrossValidator 进行超参数调优,确定最优的主成分数量(PCA 维数)和分类器参数。 通过交叉验证,选择最优的模型参数组合,优化模型的性能。 模型优化与验证 根据超参数调优的结果,重新训练分类模型。 使用测试集验证优化后的模型性能,确保模型的准确性和稳定性。 阅读全文
posted @ 2025-02-16 17:42 欧吼吼 阅读(3) 评论(0) 推荐(0) 编辑
摘要:实验流程 训练分类模型 在主成分分析的基础上,选择逻辑斯蒂回归模型进行训练。 将数据集分为训练集和测试集,使用训练集训练模型。 使用测试集验证模型的性能,计算准确率、精确率、召回率等指标。 模型评估 评估逻辑斯蒂回归模型的性能,分析其在测试集上的表现。 根据评估结果,调整模型参数,优化模型性能。 实 阅读全文
posted @ 2025-02-16 17:42 欧吼吼 阅读(1) 评论(0) 推荐(0) 编辑
摘要:实验流程 进行主成分分析(PCA) 选择数据集中的 6 个连续型数值变量进行主成分分析。 使用 Spark MLlib 的 PCA 算法,通过 setK() 方法将主成分数量设置为 3。 将连续型特征向量转换为 3 维的主成分,并查看转换后的数据。 验证 PCA 结果 查看转换后的主成分数据,确保降 阅读全文
posted @ 2025-02-16 17:41 欧吼吼 阅读(0) 评论(0) 推荐(0) 编辑
摘要:实验流程 实验环境准备 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。 下载 Adult 数据集,并上传到 HDFS 或本地文件系统中。 数据导入 编写 Scala 程序,从文件中导入 Adult 数据集,并将其转换为 DataFrame。 查看数据集的基本信息,包括 阅读全文
posted @ 2025-02-16 17:41 欧吼吼 阅读(1) 评论(0) 推荐(0) 编辑
摘要:实验流程 测试 Flume 与 Spark Streaming 集成 在 Telnet 终端中输入多条消息,验证 Spark Streaming 应用程序是否能够实时处理这些消息。 例如,输入“Hello Spark”和“Hello Flume”,验证 Spark Streaming 是否能够正确统 阅读全文
posted @ 2025-02-16 17:41 欧吼吼 阅读(1) 评论(0) 推荐(0) 编辑
摘要:实验流程 编写独立应用程序实现求平均值问题 创建 Scala 项目,配置 sbt 构建工具。 编写 Spark 独立应用程序,读取多个输入文件(Algorithm、Database、Python 成绩),创建 RDD。 使用 map 操作将每行数据转换为 (学生姓名, 成绩) 的键值对。 使用 re 阅读全文
posted @ 2025-02-16 17:41 欧吼吼 阅读(0) 评论(0) 推荐(0) 编辑
摘要:实验流程 配置 Flume 作为 Spark Streaming 数据源 配置 Flume 的 flume-spark.conf 文件,设置 netcat 源和 avro Sink。 启动 Flume,确保数据能够通过 netcat 源输入,并通过 avro Sink 输出。 编写 Spark St 阅读全文
posted @ 2025-02-16 17:40 欧吼吼 阅读(0) 评论(0) 推荐(0) 编辑
摘要:实验流程 实验环境准备 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。 下载实验数据集 chapter5-data1.txt,并上传到 HDFS 或本地文件系统中。 spark-shell 交互式编程 启动 spark-shell,加载数据集 chapter5-dat 阅读全文
posted @ 2025-02-16 17:40 欧吼吼 阅读(1) 评论(0) 推荐(0) 编辑
摘要:实验流程 编写独立应用程序实现数据去重 创建 Scala 项目,配置 sbt 构建工具。 编写 Spark 独立应用程序,读取输入文件 A 和 B,创建两个 RDD。 使用 union 操作合并两个 RDD,并通过 distinct 操作去重。 将去重后的结果保存到新文件 C 中。 使用 spark 阅读全文
posted @ 2025-02-16 17:40 欧吼吼 阅读(0) 评论(0) 推荐(0) 编辑
摘要:实验流程 Spark 读取 HDFS 文件 启动 spark-shell,读取 HDFS 中的文件 /user/hadoop/test.txt,并统计文件的行数。 验证统计结果是否正确。 编写独立应用程序 编写一个独立的 Scala 应用程序,读取 HDFS 中的文件 /user/hadoop/te 阅读全文
posted @ 2025-02-16 17:39 欧吼吼 阅读(0) 评论(0) 推荐(0) 编辑
摘要:实验流程 HDFS 常用操作 使用 hadoop 用户名登录 Linux 系统,启动 Hadoop 服务。 在 HDFS 中创建用户目录 /user/hadoop。 在本地文件系统的 /home/hadoop 目录下新建一个文本文件 test.txt,并上传到 HDFS 的 /user/hadoop 阅读全文
posted @ 2025-02-16 17:39 欧吼吼 阅读(0) 评论(0) 推荐(0) 编辑
摘要:实验流程 实验环境准备 确保 Linux 虚拟机(Ubuntu 16.04)已正确安装并配置。 下载 Hadoop 2.7.1 和 Spark 2.1.0 的安装包。 配置 Java 环境变量,确保 Hadoop 和 Spark 能够正常运行。 安装 Hadoop 参考实验指南,完成 Hadoop 阅读全文
posted @ 2025-02-16 17:39 欧吼吼 阅读(1) 评论(0) 推荐(0) 编辑
摘要:实验流程 实验环境准备 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。 下载 Flume 1.7.0 安装文件,并解压到 /usr/local/flume 目录。 配置 Flume 的环境变量,确保 Flume 能够正常运行。 安装 Flume 参考实验指南,完成 F 阅读全文
posted @ 2025-02-16 17:38 欧吼吼 阅读(1) 评论(0) 推荐(0) 编辑
摘要:实验流程 Scala 语言基础学习 复习了 Scala 语言的基本语法,包括变量定义、数据类型、控制结构(如 if-else、for 循环、while 循环等)。 学习了 Scala 中的面向对象编程基础,包括类的定义、构造方法、继承、特质(Trait)等。 学习了函数式编程的基础知识,包括匿名函数 阅读全文
posted @ 2025-02-16 17:38 欧吼吼 阅读(0) 评论(0) 推荐(0) 编辑
摘要:实验流程 复习 Linux 常用命令 复习了前一天学习的 Linux 常用命令,包括目录切换、文件查看、目录创建、文件复制、重命名、文件编辑、文件属性修改、文件查找、打包和解压缩等操作。 通过实际操作加深了对这些命令的理解和记忆。 深入学习 Linux 系统管理 学习了 Linux 系统的用户和权限 阅读全文
posted @ 2025-02-16 17:37 欧吼吼 阅读(1) 评论(0) 推荐(0) 编辑
摘要:实验流程 使用 netcat 数据源测试 Flume 配置 Flume 的 netcat.conf 文件,设置 netcat 源和 Sink。 在一个终端中启动 Flume。 在另一个终端中使用 telnet localhost 44444 命令连接 Flume。 在 Telnet 终端中输入字符, 阅读全文
posted @ 2025-02-16 17:37 欧吼吼 阅读(3) 评论(0) 推荐(0) 编辑
摘要:实验流程 编程实现利用 DataFrame 读写 MySQL 的数据 在 MySQL 数据库中新建数据库 sparktest,并创建表 employee,插入初始数据: 配置 Spark 通过 JDBC 连接 MySQL 数据库。 编写 Scala 程序,读取 MySQL 中的 employee 表 阅读全文
posted @ 2025-02-16 17:37 欧吼吼 阅读(1) 评论(0) 推荐(0) 编辑
摘要:实验流程 编程实现将 RDD 转换为 DataFrame 编写 Scala 程序,读取 employee.txt 文件,创建 RDD。 将 RDD 转换为 DataFrame,并定义列名(id、name、age)。 按“id:1,name:Ella ,age:36”的格式打印 DataFrame 的 阅读全文
posted @ 2025-02-16 17:36 欧吼吼 阅读(2) 评论(0) 推荐(0) 编辑
摘要:实验流程 实验环境准备 确保 Spark 2.1.0 已正确安装在 Ubuntu 16.04 系统中。 安装 MySQL 数据库,并配置 Spark 的 JDBC 连接支持。 准备实验数据文件 employee.json 和 employee.txt,并上传到 Linux 系统中。 Spark SQ 阅读全文
posted @ 2025-02-16 17:36 欧吼吼 阅读(1) 评论(0) 推荐(0) 编辑
摘要:实验流程 安装 Linux 虚拟机 下载并安装 VirtualBox 软件。 下载 Ubuntu 16.04 镜像文件。 在 VirtualBox 上创建新的虚拟机,并安装 Ubuntu 16.04 操作系统。 配置虚拟机的网络设置,确保虚拟机可以访问互联网。 使用 Linux 系统的常用命令 启动 阅读全文
posted @ 2025-02-16 17:36 欧吼吼 阅读(5) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示