01 2025 档案
摘要:将MySQL数据导入到Sql Server中利用ODBC 1.安装mysql数据库的ODBC驱动,mysql-connector-odbc-3.51.19-win32.msi 2.打开控制面板\管理工具\数据源ODBC,在用户DSN中添加一个MySQL ODBC 3.51数据源。 3.在登录logi
阅读全文
摘要:1.实验目的 (1)掌握使用Spark访问本地文件和HDFS文件的方法 (2)掌握Spark应用程序的编写、编译和运行方法 2.实验平台 (1)操作系统:Ubuntu18.04(或Ubuntu16.04); (2)Spark版本:2.4.0; (3)Hadoop版本:3.1.3。 3.实验步骤 (1
阅读全文
摘要:1.实验目的 (1)理解Hive作为数据仓库在Hadoop体系结构中的角色。 (2)熟练使用常用的HiveQL。 2.实验平台 操作系统:Ubuntu18.04(或Ubuntu16.04)。 Hadoop版本:3.1.3。 Hive版本:3.1.2。 JDK版本:1.8。 3.数据集 由《Hive编
阅读全文
摘要:1.实验目的 (1)通过实验掌握基本的MapReduce编程方法; (2)掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04) (2)Hadoop版本:3.1.3 3.
阅读全文
摘要:1.实验目的 (1)理解四种数据库(MySQL、HBase、Redis和MongoDB)的概念以及不同点; (2)熟练使用四种数据库操作常用的Shell命令; (3)熟悉四种数据库操作常用的Java API。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.0
阅读全文
摘要:1.实验目的 (1)理解HBase在Hadoop体系结构中的角色; (2)熟练使用HBase操作常用的Shell命令; (3)熟悉HBase操作常用的Java API。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04); (2)Hadoop版本:3.1.
阅读全文
摘要:1.实验目的 (1)理解HDFS在Hadoop体系结构中的角色; (2)熟练使用HDFS操作常用的Shell命令; (3)熟悉HDFS操作常用的Java API。 2. 实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04); (2)Hadoop版本:3.1.3;
阅读全文
摘要:1.实验目的 Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04); (2)Hadoop版
阅读全文
摘要:将MySQL数据导入到Sql Server中利用ODBC 1.安装mysql数据库的ODBC驱动,mysql-connector-odbc-3.51.19-win32.msi 2.打开控制面板\管理工具\数据源ODBC,在用户DSN中添加一个MySQL ODBC 3.51数据源。 3.在登录logi
阅读全文
摘要:在进行面向对象设计和设计模式的实践时,有时会出现设计思路不清晰的情况,不知道如何合理地划分模块、设计类之间的关系,以及选择合适的设计模式来解决实际问题。 我重新复习了面向对象设计和设计模式的相关理论知识,通过分析一些优秀的开源项目代码和实际案例,学习他人的设计思路和经验。
阅读全文
摘要:学习了数据库设计的基本步骤,包括需求分析、概念设计(绘制 ER 图)、逻辑设计(将 ER 图转换为关系模式)和物理设计(确定数据库的存储结构和索引策略)。通过一个小型项目的数据库设计案例,实践了整个数据库设计流程,深刻体会到了合理的数据库设计对于软件系统性能和数据完整性的重要性。同时,深入学习了 S
阅读全文
摘要:类图(Class Diagram) 用途:类图是 UML 中最常用的图之一,用于描述系统中的类、类的属性、操作以及类之间的关系。它是对系统静态结构的一种直观展示,有助于理解系统的架构和设计模式。 元素构成: 类(Class):用矩形表示,分为三层,最上层是类名,中层是属性(格式为 [可见性] 属性名
阅读全文
摘要:(1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注 意同分布取样); (2)使用训练集训练分类带有预剪枝和后剪枝的 C4.5 算法; (3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选 择; (4)使用测试集,测
阅读全文
摘要:开始学习 Hadoop 生态系统中的 HBase 分布式数据库。了解到它基于 Hadoop 的 HDFS 存储,能够提供快速的随机读写能力,适用于海量结构化数据的存储和查询。安装和配置 HBase 后,学习了 HBase 的数据模型,包括表、行键、列族和列等概念,以及如何使用 HBase Shell
阅读全文
摘要:Hadoop 的核心编程模型 ——MapReduce。花费大量时间剖析 Map 和 Reduce 函数的运行机制,看似简单的两个阶段,却蕴含着数据处理的巧妙逻辑。通过编写经典的单词计数程序,逐步理解了数据在各个节点上的流动和转换过程。在调试代码时,遭遇了数据类型不匹配和分区不合理的问题,经过仔细排查
阅读全文
摘要:深知性能优化在大数据处理中的重要性,于是专注于提升 MapReduce 程序的效率。对之前的单词计数代码进行 “手术”,从调整 map 和 reduce 任务的数量,到优化数据的输入输出格式,再到合理设置内存和 CPU 资源分配。每一次修改都需要仔细分析其对整体性能的影响,经过多次试验和对比,最终显
阅读全文
摘要:1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注 意同分布取样); (2)使用训练集训练 BP 神经网络分类算法; (3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选 择; (4)使用测试集,测试模型的性能,对测
阅读全文
摘要:(1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注 意同分布取样); (2)使用训练集训练分类带有预剪枝和后剪枝的 C4.5 算法; (3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选 择; (4)使用测试集,测
阅读全文