随笔分类 -  Spark

摘要:RDD(弹性分布式数据集)及常用算子 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。 弹性 存储的弹性:内存与磁盘的自动切换; 容 阅读全文
posted @ 2022-10-31 15:37 伍点 阅读(409) 评论(0) 推荐(0) 编辑
摘要:Spark基本知识 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 spark与hadoop的区别 Hadoop Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式 分析应用的开源框架 作为 Hadoop 分布式文件系统,HDFS 处于 Ha 阅读全文
posted @ 2022-10-30 20:55 伍点 阅读(163) 评论(0) 推荐(0) 编辑
摘要:Spark搭建 Standalone模式 1、上传解压 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 2、修改配置文件 # 重命名文件 cp sp 阅读全文
posted @ 2022-10-30 20:26 伍点 阅读(79) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示