大数据-Spark - 随笔分类 - 业余砖家

详解 Spark 数据倾斜及解决方案

摘要：一、调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。二、数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，阅读全文

posted @ 2024-12-03 15:13 业余砖家阅读(92) 评论(0) 推荐(0) 编辑

spark直接读取本地文件系统的文件

摘要：一、spark直接读取本地文件系统的文件（不推荐）file前缀地址“file:///”，例如：文件绝对路径为/data/20240606，那么文件名应该设置为：file:///data/20240606 说明：（1）本地文件系统地址的前缀是“file:///”后边也必须是全部的绝对路径，不能用相对阅读全文

posted @ 2024-06-06 09:19 业余砖家阅读(144) 评论(0) 推荐(0) 编辑

Spark下的Work目录定时清理

摘要：问题在跑spark任务的时候发现任务不能执行。在查看的时候发现spark work节点的/usr/local/spark/work/目录占用了很大空间，导致根目录/满了。原因使用spark standalone模式执行任务，没提交一次任务，在每个节点work目录下都会生成一个文件夹，命名规则ap 阅读全文

posted @ 2024-05-29 14:34 业余砖家阅读(138) 评论(0) 推荐(0) 编辑

Spark-Web UI页面（默认端口: 4040）

摘要：访问Web UI页面的前提：启动Spark安装目录下sbin/start-all.sh 。 jps可以看到Master和Worker。 1、Spark的Master页面 http://master:8080/ 2、Spark的Worker页面 http://master:8081/ 3、Spark 阅读全文

posted @ 2024-05-21 17:27 业余砖家阅读(1277) 评论(0) 推荐(0) 编辑

Spark-打好的Jar包在Linux服务器上执行报错：Invalid signature file digest for Manifest main attributes

摘要：问题描述：通过IDEA的maven打包含Spark的Jar包，上传到Linux服务器上执行时报错： Error: A JNI error has occurred, please check your installation and try againException in thread "ma 阅读全文

posted @ 2024-05-21 17:00 业余砖家阅读(119) 评论(0) 推荐(0) 编辑

spark-submit 提交的参数

摘要：spark-submit 是用于提交Spark应用到集群的命令行工具。它允许用户控制Spark应用的各种参数，比如应用名、集群URL、运行模式、资源分配等。以下是一些常用的 spark-submit 参数： --master MASTER_URL ，其中 MASTER_URL 可选如下： local 阅读全文

posted @ 2024-05-16 16:05 业余砖家阅读(565) 评论(0) 推荐(0) 编辑

Spark的相关参数配置

摘要：一、任务占用资源计算 executor占用CPU = executor_instances * executor_cores * 10 * 0.8（0.1核） executor占用内存 = executor_instances * (executor.memory + max(executor.me 阅读全文

posted @ 2024-03-15 18:51 业余砖家阅读(896) 评论(0) 推荐(0) 编辑

Spark通过JDBC读取和写入MySQL（postgreSQL）

摘要：背景说明 Spark SQL 还包括一个数据源，该数据源可以使用 JDBC 从其他数据库读取数据。这功能应优先于使用 JdbcRDD。这是因为返回了结果作为 DataFrame，它们可以很容易地在 Spark SQL 中处理或与其他数据源联接。 JDBC 数据源也更易于从 Java 或 Pyt 阅读全文

posted @ 2024-03-14 23:28 业余砖家阅读(1009) 评论(0) 推荐(0) 编辑

Spark~spark-sql启动报错：The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.

摘要：问题描述启动spark-sql时报错： Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BONECP" plugin to create a ConnectionPool gave an 阅读全文

posted @ 2024-02-29 09:46 业余砖家阅读(156) 评论(0) 推荐(0) 编辑

Spark相关面试题

摘要：Spark Core面试篇01 一、简答题 1.Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，D 阅读全文

posted @ 2023-02-08 23:15 业余砖家阅读(367) 评论(0) 推荐(0) 编辑

使用explain分析Spark SQL中的谓词下推，列裁剪，映射下推

摘要：一、谓词下推 Predicate PushDown 谓词下推的目的：将过滤条件尽可能地下沉到数据源端。谓词，用来描述或判定客体性质、特征或者客体之间关系的词项,英文翻译为predicate，而谓词下推的英文Predicate Pushdown中的谓词指返回bool值即true和false的函数，或阅读全文

posted @ 2022-08-12 20:45 业余砖家阅读(1983) 评论(0) 推荐(0) 编辑

业余砖家

没有比人更高的山，没有比脚更长的路。

随笔分类 - 大数据-Spark

公告

合集 (1)

随笔分类 (337)

随笔档案 (342)

文章分类 (91)

文章档案 (93)