随笔分类 - 24秋 / 24秋每日总结
摘要:1.实验目的 (1)掌握使用Spark访问本地文件和HDFS文件的方法 (2)掌握Spark应用程序的编写、编译和运行方法 2.实验平台 (1)操作系统:Ubuntu18.04(或Ubuntu16.04); (2)Spark版本:2.4.0; (3)Hadoop版本:3.1.3。 3.实验步骤 (1
阅读全文
摘要:1.实验目的 (1)理解Hive作为数据仓库在Hadoop体系结构中的角色。 (2)熟练使用常用的HiveQL。 2.实验平台 操作系统:Ubuntu18.04(或Ubuntu16.04)。 Hadoop版本:3.1.3。 Hive版本:3.1.2。 JDK版本:1.8。 3.数据集 由《Hive编
阅读全文
摘要:(三)对给定的表格进行信息挖掘 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。 输入文件内容如下: child parent Steven Lucy Steven Jack Jone Lucy Jone Jack Lucy Mary Lucy Frank
阅读全文
摘要:(二)编写程序实现对输入文件的排序 现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中,输出的数据格式为每行两个整数,第一个数字为第二个整数的排序位次,第二个整数为原待排列的整数。下面是输入文件和输出文件的一个样例供参考。 输入文件1
阅读全文
摘要:1.实验目的 (1)通过实验掌握基本的MapReduce编程方法; (2)掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04) (2)Hadoop版本:3.1.3 3.
阅读全文
摘要:1.实验目的 (1)理解四种数据库(MySQL、HBase、Redis和MongoDB)的概念以及不同点; (2)熟练使用四种数据库操作常用的Shell命令; (3)熟悉四种数据库操作常用的Java API。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.0
阅读全文
摘要:(二)HBase数据库操作 1. 现有以下关系型数据库中的表和数据(见表14-3到表14-5),要求将其转换为适合于HBase存储的表并插入数据: 表14-3 学生表(Student) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 2015001 Zhangsan
阅读全文
摘要:1.实验目的 (1)理解HBase在Hadoop体系结构中的角色; (2)熟练使用HBase操作常用的Shell命令; (3)熟悉HBase操作常用的Java API。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04); (2)Hadoop版本:3.1.
阅读全文
摘要:(二)编程实现一个类“MyFSDataInputStream”,该类继承“org.apache.hadoop.fs.FSDataInputStream”,要求如下:实现按行读取HDFS中指定文件的方法“readLine()”,如果读到文件末尾,则返回空,否则返回文件一行的文本。 import org
阅读全文
摘要:1.实验目的 (1)理解HDFS在Hadoop体系结构中的角色; (2)熟练使用HDFS操作常用的Shell命令; (3)熟悉HDFS操作常用的Java API。 2. 实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04); (2)Hadoop版本:3.1.3;
阅读全文
摘要:2.熟悉常用的Hadoop操作 (1)使用hadoop用户登录Linux系统,启动Hadoop(Hadoop的安装目录为“/usr/local/hadoop”),为hadoop用户在HDFS中创建用户目录“/user/hadoop” (2)接着在HDFS的目录“/user/hadoop”下,创建te
阅读全文
摘要:1.实验目的 Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04); (2)Hadoop版
阅读全文
摘要:摘要:随着科技的迅猛发展,尤其是人工智能、大模型和辅助编程工具的广泛应用,IT行业的就业环境正在发生深刻的变化。大学生在校期间所掌握的技能和知识,如何与未来的职业需求相结合,成为了每位学生必须认真思考的问题。本报告通过对当前IT就业环境的调研,分析了行业现状、技术趋势和就业挑战,结合个人在大学期间所
阅读全文
摘要:摘要:在当今信息技术迅速发展的时代,软件企业面临着激烈的市场竞争和不断变化的用户需求。产品技术作为软件企业的核心竞争力,直接影响着企业的生存与发展。本文通过对软件企业产品技术管理的深入研究,探讨了产品技术的重要性、各类产品技术岗位的职责以及有效的产品技术管理对企业成功的影响。通过网络调研和校友访谈,
阅读全文
摘要:实验八:随机森林算法实现与测试 一、实验目的 深入理解随机森林的算法原理,进而理解集成学习的意义,能够使用 Python 语言实现随机森林算法的训练与测试,并且使用五折交叉验证算法进行模型训练与评估。 二、实验内容 (1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/
阅读全文
摘要:一、实验目的 深入理解 K 均值聚类算法的算法原理,进而理解无监督学习的意义,能够使用 Python语言实现 K 均值聚类算法的训练与测试,并且使用五折交叉验证算法进行模型训练与评估。 二、实验内容 (1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测
阅读全文
摘要:一、实验目的 深入理解朴素贝叶斯的算法原理,能够使用 Python 语言实现朴素贝叶斯的训练与测试,并且使用五折交叉验证算法进行模型训练与评估。 二、实验内容 (1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注意同分布取样); (2)使用训练
阅读全文
摘要:实验五:BP 神经网络算法实现与测试 一、实验目的 深入理解 BP 神经网络的算法原理,能够使用 Python 语言实现 BP 神经网络的训练与测试,并且使用五折交叉验证算法进行模型训练与评估。 二、实验内容 (1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的
阅读全文
摘要:一、实验目的 深入理解支持向量机(SVM)的算法原理,能够使用 Python 语言实现支持向量机的训练与测试,并且使用五折交叉验证算法进行模型训练与评估。 二、实验内容 (1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注意同分布取样); (2
阅读全文