随笔分类 - 【吗喽的搬砖日常】 / Spark
摘要:题记部分 一、Local模式 1.1、概述 Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试的。 可以通过以下几种方式设置Master (1)local:所欲计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式。 (2)loca
阅读全文
摘要:题记部分 一、RDD编程模型 在 Spark 中,RDD 被表示为对象,通过对象上的方法调用来对 RDD 进行转换。经过一系列的 transformations 定义 RDD 之后,就可以调用 actions 触发 RDD的计算,action 可以是向应用程序返回结果(count,collect等)
阅读全文
摘要:RDD,分布式数据集,是Spark中最基本的数据抽象。 一、什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是 Spark 中最基本的数据抽象。 代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 二、RDD的属性 ① 一组
阅读全文
摘要:YarnClient YarnCluster 客户端(Client)通过YARN的ResourceManager提交应用程序。在此过程中,客户端进行权限验证,生成Job ID和资源上传路径,并将这些信息返回给客户端。 客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后,客户端
阅读全文
摘要:Spark是什么?答案:Apache Spark是一个快速、通用的大数据处理引擎,它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源,如HDFS、Hive、Cassandra等,并提供了丰富的API和工具集,用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的
阅读全文
摘要:一、Spark是什么 Spark 是一种基于内存的快速、通用、可扩展的大数据分析引擎。 Apache Spark is a unified analytics engine for large-scale data processing. 2009年诞生于加州大学伯克利分校AMPLab,项目采用Sc
阅读全文