摘要: RDD的详解 RDD:弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作! RDD的创建 RDD中的数据可以来源于2个地方:本地集合或外部数据源 RDD操作 分类 转换算子 Map import org.apache.spark.rdd.RDD import org 阅读全文
posted @ 2021-11-10 20:39 lmandcc 阅读(1338) 评论(0) 推荐(1) 编辑
摘要: 原理 两种模式 client-了解 cluster模式-开发使用 操作 1.需要Yarn集群 2.历史服务器 3.提交任务的的客户端工具-spark-submit命令 4.待提交的spark任务/程序的字节码--可以使用示例程序 spark-shell和spark-submit 两个命令的区别 sp 阅读全文
posted @ 2021-11-09 22:29 lmandcc 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 1.分区列表(a list of partitions)。Spark RDD是被分区的,每一个分区都会被一个计算任务(Task)处理,分区数决定并行计算数量,RDD的并行度默认从父RDD传给子RDD。默认情况下,一个HDFS上的数据分片就是一个Partition,RDD分片数决定了并行计算的力度,可 阅读全文
posted @ 2021-11-08 22:12 lmandcc 阅读(843) 评论(0) 推荐(0) 编辑
摘要: 1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压,配置环境变量 配置bin目录 解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/ 改名:mv spark-2.4. 阅读全文
posted @ 2021-11-08 21:36 lmandcc 阅读(1266) 评论(0) 推荐(0) 编辑
摘要: 2、预备知识-python核心用法常用数据分析库(下) 概述 Python 是当今世界最热门的编程语言,而它最大的应用领域之一就是数据分析。在python众多数据分析工具中,pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。使用 Pandas 我们可以 阅读全文
posted @ 2021-10-28 22:22 lmandcc 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 1、预备知识-python核心用法常用数据分析库(上) 概述 Python 是当今世界最热门的编程语言,而它最大的应用领域之一就是数据分析。在python众多数据分析工具中,pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。使用 Pandas 我们可以 阅读全文
posted @ 2021-10-28 22:20 lmandcc 阅读(432) 评论(0) 推荐(1) 编辑
摘要: Kettle的安装及简单使用 目录Kettle的安装及简单使用一、kettle概述二、kettle安装部署和使用Windows下安装案例1:MySQL to MySQL案例2:使用作业执行上述转换,并且额外在表stu2中添加一条数据案例3:将hive表的数据输出到hdfs案例4:读取hdfs文件并将 阅读全文
posted @ 2021-10-24 22:22 lmandcc 阅读(3700) 评论(0) 推荐(1) 编辑
摘要: Flume的安装及使用 Flume的安装 1、上传至虚拟机,并解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/ 在环境变量中增加如下命令,可以使用 soft 快速切换到 /usr/local/soft alias soft= 阅读全文
posted @ 2021-10-22 21:51 lmandcc 阅读(897) 评论(0) 推荐(0) 编辑
摘要: FlinkX的安装与简单使用 FlinkX的安装 安装unzip:yum install unzip 1、上传并解压 unzip flinkx-1.10.zip -d /usr/local/soft/ 2、配置环境变量 3、给bin/flinkx这个文件加上执行权限 chmod a+x flinkx 阅读全文
posted @ 2021-10-21 21:57 lmandcc 阅读(1120) 评论(0) 推荐(0) 编辑
摘要: DataX的安装及使用 DataX的安装 DataX不需要依赖其他服务,直接上传、解压、安装、配置环境变量即可 也可以直接在windows上解压 DataX的使用 stream2stream 编写配置文件stream2stream.json # stream2stream.json { "job": 阅读全文
posted @ 2021-10-21 21:55 lmandcc 阅读(326) 评论(0) 推荐(0) 编辑