01 2024 档案

摘要:Sqoop概述 Sqoop是一款开源的工具,主要用于在Hadoop生态系统(Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。 Sqoop导入原理: 在导入 阅读全文
posted @ 2024-01-31 22:23 伽澄 阅读(50) 评论(0) 推荐(0)
摘要:基础概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十 阅读全文
posted @ 2024-01-30 21:22 伽澄 阅读(53) 评论(0) 推荐(0)
摘要:数据清洗概述 数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合 阅读全文
posted @ 2024-01-29 21:16 伽澄 阅读(111) 评论(0) 推荐(0)
摘要:一、 采集北京市政百姓信件内容 什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬 阅读全文
posted @ 2024-01-29 00:24 伽澄 阅读(143) 评论(0) 推荐(0)
摘要:一、实验目的 (1)通过实验掌握基本的 MLLib 编程方法; (2)掌握用 MLLib 解决一些常见的数据分析问题,包括数据导入、成分分析和分类和 预测等。 二、实验平台 操作系统:Ubuntu16.04 JDK 版本:1.7 或以上版本 Spark 版本:2.1.0 数据集:下载 Adult 数 阅读全文
posted @ 2024-01-27 17:29 伽澄 阅读(307) 评论(0) 推荐(0)
摘要:一、实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法; (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三、实验内容和要求 1.安 阅读全文
posted @ 2024-01-26 22:54 伽澄 阅读(478) 评论(0) 推荐(0)
摘要:一、实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法; (2)熟悉 RDD 到 DataFrame 的转化方法; (3)熟悉利用 Spark SQL 管理来自不同数据源的数据。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 数据库:MySQL 三、实 阅读全文
posted @ 2024-01-26 01:05 伽澄 阅读(1126) 评论(0) 推荐(1)
摘要:今天本来想要进行Spark基础实验五。但是通过观看实验要求,我发现里面涉及到编程实现将 RDD 转换为 DataFrame这一过程,对于DataFrame我并不了解,于是通过查找网络资料。找到了以下相关内容。 参考博客:https://www.cnblogs.com/flw0322/p/122847 阅读全文
posted @ 2024-01-23 22:13 伽澄 阅读(79) 评论(0) 推荐(0)
摘要:今天我突然想起来建民老师布置的服务外包杯作业,我们组选的是歌声转化算法赛题 对于这个赛题,我搜索了部分资料: 语音转换,也被称为声音转换或语音变换,是一种用于改变人的语音特征的技术,同时保留语言内容和说话者的身份。它涉及修改源说话者的声音特性,使其听起来像目标说话者的声音。语音转换的目标是将源说话者 阅读全文
posted @ 2024-01-22 22:13 伽澄 阅读(79) 评论(0) 推荐(0)
摘要:一、RDD编程基础1、RDD创建 Spark采用textFile()方法从文件系统中加载数据创建RDD,该方法把文件的URI作为参数,这个URI可以是本地文件系统的地址、分布式文件系统HDFS的地址或者是AmazonS3地址等。 (1)从文件系统中加载数据 (2)从分布式文件系统HDFS中加载数据 阅读全文
posted @ 2024-01-20 23:15 伽澄 阅读(150) 评论(0) 推荐(0)
摘要:今天进行spark基础编程四——RDD 编程初级实践 一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-sh 阅读全文
posted @ 2024-01-20 11:31 伽澄 阅读(459) 评论(0) 推荐(0)
摘要:今天进行Spark基础实验三Spark 和 Hadoop 的安装。 一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:Ubu 阅读全文
posted @ 2024-01-18 23:21 伽澄 阅读(199) 评论(0) 推荐(0)
摘要:1.Scala有两种类型的变量:val:是不可变的,在声明时就必须被初始化,而且初始化以后就不能再赋值;var:是可变的,声明的时候需要进行初始化,初始化以后还可以再次对其赋值。基本语法:val 变量名:数据类型 = 初始值var 变量名:数据类型 = 初始值类型推断机制(type inferenc 阅读全文
posted @ 2024-01-17 18:47 伽澄 阅读(34) 评论(0) 推荐(0)
摘要:一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器类进行数据; 4.熟练掌握 Scala 的 REPL 阅读全文
posted @ 2024-01-16 23:23 伽澄 阅读(420) 评论(0) 推荐(0)
摘要:1、下载FileZilla 链接:https://pan.baidu.com/s/1SLCJWVnOGzsn3QSY83CYkw?pwd=WL17 提取码:WL17 2、安装 点击anyone 点击next 继续点击next 安装成功 本质和finalshell并无太大区别 阅读全文
posted @ 2024-01-15 22:02 伽澄 阅读(26) 评论(0) 推荐(0)
摘要:一、实验目的 (1)掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统 上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统中进行相关操作,同 时,下一章的 Scala 语言也会在 Linux 系统中安装和操作。鉴于目前很多 阅读全文
posted @ 2024-01-14 21:03 伽澄 阅读(102) 评论(0) 推荐(0)
摘要:2、破解百度翻译 import requests import json if __name__ == '__main__': #UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; 阅读全文
posted @ 2024-01-13 22:14 伽澄 阅读(12) 评论(0) 推荐(0)
摘要:今天进行数据爬取的几个练习 1、简易网页采集器 import requests if __name__ == '__main__':#UA检测 #UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器 headers = { 'User-Agent':'Mozilla/5.0 (Windows N 阅读全文
posted @ 2024-01-12 23:13 伽澄 阅读(15) 评论(0) 推荐(0)
摘要:从今天开始进行2023年寒假暑期指导的内容,首先进行第一项python编程学习数据爬取 使用requests requests使用步骤 指定URL 发起请求 获取响应数据 持久化存储 1、安装requests 在pythonCharm中下载requests软件包 2、代码练习——爬取搜狗首页页面数据 阅读全文
posted @ 2024-01-10 22:20 伽澄 阅读(32) 评论(0) 推荐(0)