随笔分类 - Spark
摘要:RDD(弹性分布式数据集)及常用算子 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。 弹性 存储的弹性:内存与磁盘的自动切换; 容
阅读全文
摘要:Spark基本知识 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 spark与hadoop的区别 Hadoop Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式 分析应用的开源框架 作为 Hadoop 分布式文件系统,HDFS 处于 Ha
阅读全文
摘要:Spark搭建 Standalone模式 1、上传解压 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 2、修改配置文件 # 重命名文件 cp sp
阅读全文