2024 年 1月随笔档案 - 伽澄

北京市政百姓信件分析实战——四、利用Sqoop导出Hive分析数据到MySQL库

摘要：Sqoop概述 Sqoop是一款开源的工具，主要用于在Hadoop生态系统（Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递，可以将一个关系型数据库中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。 Sqoop导入原理：在导入阅读全文

posted @ 2024-01-31 22:23 伽澄阅读(50) 评论(0) 推荐(0)

北京市政百姓信件分析实战——三、利用HiveSql语句离线分析信件内容数据

摘要：基础概述 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十阅读全文

posted @ 2024-01-30 21:22 伽澄阅读(53) 评论(0) 推荐(0)

北京市政百姓信件分析实战——二、编写MapReduce程序清洗信件内容数据

摘要：数据清洗概述数据清洗是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合阅读全文

posted @ 2024-01-29 21:16 伽澄阅读(111) 评论(0) 推荐(0)

北京市政百姓信件分析实战——采集北京市政百姓信件内容

摘要：一、采集北京市政百姓信件内容什么是爬虫网络爬虫，也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。爬阅读全文

posted @ 2024-01-29 00:24 伽澄阅读(143) 评论(0) 推荐(0)

Spark基础实验七——Spark 机器学习库 MLlib 编程实践

摘要：一、实验目的（1）通过实验掌握基本的 MLLib 编程方法；（2）掌握用 MLLib 解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。二、实验平台操作系统：Ubuntu16.04 JDK 版本：1.7 或以上版本 Spark 版本：2.1.0 数据集：下载 Adult 数阅读全文

posted @ 2024-01-27 17:29 伽澄阅读(307) 评论(0) 推荐(0)

Spark基础实验六——Spark Streaming 编程初级实践

摘要：一、实验目的（1）通过实验学习日志采集工具 Flume 的安装和使用方法；（2）掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。二、实验平台操作系统： Ubuntu16.04 Spark 版本：2.1.0 Flume 版本：1.7.0 三、实验内容和要求 1.安阅读全文

posted @ 2024-01-26 22:54 伽澄阅读(478) 评论(0) 推荐(0)

Spark基础实验五——Spark SQL编程初级实践

摘要：一、实验目的（1）通过实验掌握 Spark SQL 的基本编程方法；（2）熟悉 RDD 到 DataFrame 的转化方法；（3）熟悉利用 Spark SQL 管理来自不同数据源的数据。二、实验平台操作系统： Ubuntu16.04 Spark 版本：2.1.0 数据库：MySQL 三、实阅读全文

posted @ 2024-01-26 01:05 伽澄阅读(1126) 评论(0) 推荐(1)

DataFrame创建

摘要：今天本来想要进行Spark基础实验五。但是通过观看实验要求，我发现里面涉及到编程实现将 RDD 转换为 DataFrame这一过程，对于DataFrame我并不了解，于是通过查找网络资料。找到了以下相关内容。参考博客：https://www.cnblogs.com/flw0322/p/122847 阅读全文

posted @ 2024-01-23 22:13 伽澄阅读(79) 评论(0) 推荐(0)

中国服务外包杯-歌声转化算法

摘要：今天我突然想起来建民老师布置的服务外包杯作业，我们组选的是歌声转化算法赛题对于这个赛题，我搜索了部分资料：语音转换，也被称为声音转换或语音变换，是一种用于改变人的语音特征的技术，同时保留语言内容和说话者的身份。它涉及修改源说话者的声音特性，使其听起来像目标说话者的声音。语音转换的目标是将源说话者阅读全文

posted @ 2024-01-22 22:13 伽澄阅读(79) 评论(0) 推荐(0)

RDD编程基础知识

摘要：一、RDD编程基础1、RDD创建 Spark采用textFile()方法从文件系统中加载数据创建RDD，该方法把文件的URI作为参数，这个URI可以是本地文件系统的地址、分布式文件系统HDFS的地址或者是AmazonS3地址等。（1）从文件系统中加载数据（2）从分布式文件系统HDFS中加载数据阅读全文

posted @ 2024-01-20 23:15 伽澄阅读(150) 评论(0) 推荐(0)

spark基础编程四——RDD 编程初级实践

摘要：今天进行spark基础编程四——RDD 编程初级实践一、实验目的（1）熟悉 Spark 的 RDD 基本操作及键值对操作；（2）熟悉使用 RDD 编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04 Spark 版本：2.1.0 三、实验内容和要求 1．spark-sh 阅读全文

posted @ 2024-01-20 11:31 伽澄阅读(459) 评论(0) 推荐(0)

Spark基础实验三——Spark 和 Hadoop 的安装

摘要：今天进行Spark基础实验三Spark 和 Hadoop 的安装。一、实验目的（1）掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法；（2）熟悉 HDFS 的基本使用方法；（3）掌握使用 Spark 访问本地文件和 HDFS 文件的方法。二、实验平台操作系统：Ubu 阅读全文

posted @ 2024-01-18 23:21 伽澄阅读(199) 评论(0) 推荐(0)

scala基础

摘要：1.Scala有两种类型的变量：val：是不可变的，在声明时就必须被初始化，而且初始化以后就不能再赋值；var：是可变的，声明的时候需要进行初始化，初始化以后还可以再次对其赋值。基本语法：val 变量名：数据类型 = 初始值var 变量名：数据类型 = 初始值类型推断机制（type inferenc 阅读全文

posted @ 2024-01-17 18:47 伽澄阅读(34) 评论(0) 推荐(0)

Spark基础实验二-Scala 编程初级实践

摘要：一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构； 2.掌握面向对象编程的基础知识，能够编写自定义类和特质； 3.掌握函数式编程的基础知识，能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本层次结构，熟练使用常用的容器类进行数据； 4.熟练掌握 Scala 的 REPL 阅读全文

posted @ 2024-01-16 23:23 伽澄阅读(420) 评论(0) 推荐(0)

安装FileZilla

摘要：1、下载FileZilla 链接：https://pan.baidu.com/s/1SLCJWVnOGzsn3QSY83CYkw?pwd=WL17 提取码：WL17 2、安装点击anyone 点击next 继续点击next 安装成功本质和finalshell并无太大区别阅读全文

posted @ 2024-01-15 22:02 伽澄阅读(26) 评论(0) 推荐(0)

Spark基础实验一-Linux 系统的安装和常用命令

摘要：一、实验目的（1）掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统上运行可以发挥最佳性能，因此，本教程中，Spark 都是在 Linux 系统中进行相关操作，同时，下一章的 Scala 语言也会在 Linux 系统中安装和操作。鉴于目前很多阅读全文

posted @ 2024-01-14 21:03 伽澄阅读(102) 评论(0) 推荐(0)

python编程数据爬取3

摘要：2、破解百度翻译 import requests import json if __name__ == '__main__': #UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; 阅读全文

posted @ 2024-01-13 22:14 伽澄阅读(12) 评论(0) 推荐(0)

python编程-数据爬取2

摘要：今天进行数据爬取的几个练习 1、简易网页采集器 import requests if __name__ == '__main__':#UA检测 #UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器 headers = { 'User-Agent':'Mozilla/5.0 (Windows N 阅读全文

posted @ 2024-01-12 23:13 伽澄阅读(15) 评论(0) 推荐(0)

python编程-数据爬取request

摘要：从今天开始进行2023年寒假暑期指导的内容，首先进行第一项python编程学习数据爬取使用requests requests使用步骤指定URL 发起请求获取响应数据持久化存储 1、安装requests 在pythonCharm中下载requests软件包 2、代码练习——爬取搜狗首页页面数据阅读全文

posted @ 2024-01-10 22:20 伽澄阅读(32) 评论(0) 推荐(0)

jiacheng-712

01 2024 档案

公告