摘要:
RDD的详解 RDD:弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作! RDD的创建 RDD中的数据可以来源于2个地方:本地集合或外部数据源 RDD操作 分类 转换算子 Map import org.apache.spark.rdd.RDD import org 阅读全文
摘要:
原理 两种模式 client-了解 cluster模式-开发使用 操作 1.需要Yarn集群 2.历史服务器 3.提交任务的的客户端工具-spark-submit命令 4.待提交的spark任务/程序的字节码--可以使用示例程序 spark-shell和spark-submit 两个命令的区别 sp 阅读全文
摘要:
1.分区列表(a list of partitions)。Spark RDD是被分区的,每一个分区都会被一个计算任务(Task)处理,分区数决定并行计算数量,RDD的并行度默认从父RDD传给子RDD。默认情况下,一个HDFS上的数据分片就是一个Partition,RDD分片数决定了并行计算的力度,可 阅读全文
摘要:
1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压,配置环境变量 配置bin目录 解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/ 改名:mv spark-2.4. 阅读全文
摘要:
2、预备知识-python核心用法常用数据分析库(下) 概述 Python 是当今世界最热门的编程语言,而它最大的应用领域之一就是数据分析。在python众多数据分析工具中,pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。使用 Pandas 我们可以 阅读全文
摘要:
1、预备知识-python核心用法常用数据分析库(上) 概述 Python 是当今世界最热门的编程语言,而它最大的应用领域之一就是数据分析。在python众多数据分析工具中,pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。使用 Pandas 我们可以 阅读全文
摘要:
Kettle的安装及简单使用 目录Kettle的安装及简单使用一、kettle概述二、kettle安装部署和使用Windows下安装案例1:MySQL to MySQL案例2:使用作业执行上述转换,并且额外在表stu2中添加一条数据案例3:将hive表的数据输出到hdfs案例4:读取hdfs文件并将 阅读全文
摘要:
Flume的安装及使用 Flume的安装 1、上传至虚拟机,并解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/ 在环境变量中增加如下命令,可以使用 soft 快速切换到 /usr/local/soft alias soft= 阅读全文
摘要:
FlinkX的安装与简单使用 FlinkX的安装 安装unzip:yum install unzip 1、上传并解压 unzip flinkx-1.10.zip -d /usr/local/soft/ 2、配置环境变量 3、给bin/flinkx这个文件加上执行权限 chmod a+x flinkx 阅读全文
摘要:
DataX的安装及使用 DataX的安装 DataX不需要依赖其他服务,直接上传、解压、安装、配置环境变量即可 也可以直接在windows上解压 DataX的使用 stream2stream 编写配置文件stream2stream.json # stream2stream.json { "job": 阅读全文