随笔分类 - 【吗喽的搬砖日常】 / Spark

Spark - [03] 资源调度模式

摘要：题记部分一、Local模式 1.1、概述 Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试的。可以通过以下几种方式设置Master （1）local：所欲计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式。（2）loca 阅读全文

posted @ 2024-10-11 15:37 HOUHUILIN 阅读(4) 评论(0) 推荐(0) 编辑

Spark - [04] RDD编程

摘要：题记部分一、RDD编程模型在 Spark 中，RDD 被表示为对象，通过对象上的方法调用来对 RDD 进行转换。经过一系列的 transformations 定义 RDD 之后，就可以调用 actions 触发 RDD的计算，action 可以是向应用程序返回结果（count，collect等）阅读全文

posted @ 2024-05-12 22:38 HOUHUILIN 阅读(23) 评论(0) 推荐(0) 编辑

Spark - [03] RDD概述

摘要：RDD，分布式数据集，是Spark中最基本的数据抽象。一、什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是 Spark 中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。二、RDD的属性 ① 一组阅读全文

posted @ 2024-05-12 22:28 HOUHUILIN 阅读(8) 评论(0) 推荐(0) 编辑

Spark - spark on yarn 的作业提交流程

摘要：YarnClient YarnCluster 客户端（Client）通过YARN的ResourceManager提交应用程序。在此过程中，客户端进行权限验证，生成Job ID和资源上传路径，并将这些信息返回给客户端。客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后，客户端阅读全文

posted @ 2024-01-11 22:38 HOUHUILIN 阅读(195) 评论(0) 推荐(0) 编辑

Spark - 面试题

摘要：Spark是什么？答案：Apache Spark是一个快速、通用的大数据处理引擎，它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源，如HDFS、Hive、Cassandra等，并提供了丰富的API和工具集，用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的阅读全文

posted @ 2024-01-11 22:21 HOUHUILIN 阅读(53) 评论(0) 推荐(0) 编辑

Spark - [01] 概述

摘要：一、Spark是什么 Spark 是一种基于内存的快速、通用、可扩展的大数据分析引擎。 Apache Spark is a unified analytics engine for large-scale data processing. 2009年诞生于加州大学伯克利分校AMPLab，项目采用Sc 阅读全文

posted @ 2023-05-19 09:45 HOUHUILIN 阅读(26) 评论(0) 推荐(0) 编辑

公告

昵称： HOUHUILIN
园龄： 5年8个月
粉丝： 20
关注： 14

+加关注

2025年3月

日

一

二

三

四

五

六

HOUHUILIN

别在最好的年纪，辜负了最好的自己。

随笔分类 - 【吗喽的搬砖日常】 / Spark

公告

搜索

常用链接

积分与排名

随笔分类 (298)

随笔档案 (316)

文章分类 (9)

文章档案 (14)

【程序猿的精神食粮】

Azure

Windows

你成功过么？哪怕一次！

阅读排行榜

评论排行榜

推荐排行榜

最新评论