lmandcc

2021年11月10日

摘要： RDD的详解 RDD:弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作! RDD的创建 RDD中的数据可以来源于2个地方：本地集合或外部数据源 RDD操作分类转换算子 Map import org.apache.spark.rdd.RDD import org 阅读全文

posted @ 2021-11-10 20:39 lmandcc 阅读(1486) 评论(0) 推荐(1)

2021年11月9日

Spark-On-Yarn

摘要：原理两种模式 client-了解 cluster模式-开发使用操作 1.需要Yarn集群 2.历史服务器 3.提交任务的的客户端工具-spark-submit命令 4.待提交的spark任务/程序的字节码--可以使用示例程序 spark-shell和spark-submit 两个命令的区别 sp 阅读全文

posted @ 2021-11-09 22:29 lmandcc 阅读(92) 评论(0) 推荐(0)

2021年11月8日

RDD的五大特性

摘要： 1.分区列表（a list of partitions）。Spark RDD是被分区的，每一个分区都会被一个计算任务（Task）处理，分区数决定并行计算数量，RDD的并行度默认从父RDD传给子RDD。默认情况下，一个HDFS上的数据分片就是一个Partition，RDD分片数决定了并行计算的力度，可阅读全文

posted @ 2021-11-08 22:12 lmandcc 阅读(1022) 评论(0) 推荐(0)

Spark的安装及其配置

摘要： 1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压，配置环境变量配置bin目录解压：tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/ 改名：mv spark-2.4. 阅读全文

posted @ 2021-11-08 21:36 lmandcc 阅读(1427) 评论(0) 推荐(0)

2021年10月28日

预备知识-python核心用法常用数据分析库（下）

摘要： 2、预备知识-python核心用法常用数据分析库（下）概述 Python 是当今世界最热门的编程语言，而它最大的应用领域之一就是数据分析。在python众多数据分析工具中，pandas是python中非常常用的数据分析库，在数据分析，机器学习，深度学习等领域经常被使用。使用 Pandas 我们可以阅读全文

posted @ 2021-10-28 22:22 lmandcc 阅读(306) 评论(0) 推荐(0)

预备知识-python核心用法常用数据分析库

摘要： 1、预备知识-python核心用法常用数据分析库（上）概述 Python 是当今世界最热门的编程语言，而它最大的应用领域之一就是数据分析。在python众多数据分析工具中，pandas是python中非常常用的数据分析库，在数据分析，机器学习，深度学习等领域经常被使用。使用 Pandas 我们可以阅读全文

posted @ 2021-10-28 22:20 lmandcc 阅读(565) 评论(0) 推荐(1)

2021年10月24日

Kettle的安装及简单使用

摘要： Kettle的安装及简单使用目录Kettle的安装及简单使用一、kettle概述二、kettle安装部署和使用Windows下安装案例1：MySQL to MySQL案例2：使用作业执行上述转换，并且额外在表stu2中添加一条数据案例3：将hive表的数据输出到hdfs案例4：读取hdfs文件并将阅读全文

posted @ 2021-10-24 22:22 lmandcc 阅读(4212) 评论(0) 推荐(1)

2021年10月22日

Flume的安装及使用

摘要： Flume的安装及使用 Flume的安装 1、上传至虚拟机，并解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/ 在环境变量中增加如下命令，可以使用 soft 快速切换到 /usr/local/soft alias soft= 阅读全文

posted @ 2021-10-22 21:51 lmandcc 阅读(1042) 评论(0) 推荐(0)

2021年10月21日

FlinkX的安装与简单使用

摘要： FlinkX的安装与简单使用 FlinkX的安装安装unzip：yum install unzip 1、上传并解压 unzip flinkx-1.10.zip -d /usr/local/soft/ 2、配置环境变量 3、给bin/flinkx这个文件加上执行权限 chmod a+x flinkx 阅读全文

posted @ 2021-10-21 21:57 lmandcc 阅读(1230) 评论(0) 推荐(0)

DataX的安装及使用

摘要： DataX的安装及使用 DataX的安装 DataX不需要依赖其他服务，直接上传、解压、安装、配置环境变量即可也可以直接在windows上解压 DataX的使用 stream2stream 编写配置文件stream2stream.json # stream2stream.json { "job": 阅读全文

posted @ 2021-10-21 21:55 lmandcc 阅读(340) 评论(0) 推荐(0)

没有情调，不懂浪漫，也许这是程序员的一面，但拥有朴实无华的爱是他们的另一面。

公告