spark - 随笔分类 - 梦里繁花

SparkUI中的Peak Pool Memory Direct / Mapped (直接缓冲池和映射缓冲池)

摘要：Peak Pool Memory Direct / Mapped --直接缓冲池和映射缓冲池峰值内存 ## 什么是直接缓冲池和映射缓冲池？在Java中，有两种类型的缓冲池：直接缓冲池和映射缓冲池。直接缓冲池 1）从堆外内存分配，不受JVM管理 2）占用内存较多 3）相比从JVM复制数据到本地，性阅读全文

posted @ 2023-06-08 11:28 梦里繁花阅读(73) 评论(0) 推荐(0) 编辑

Spark解决SQL和RDDjoin结果不一致问题（工作实录）

摘要：问题描述：DataFrame的join结果不正确，dataframeA(6000无重复条数据) join dataframeB(220条无重复数据，由dataframeA转化而来，key值均源于dataframeA) 只有200条数据，丢了20条问题验证： 1，查询丢的20条数据，均无异常，不存在阅读全文

posted @ 2021-10-21 11:54 梦里繁花阅读(467) 评论(0) 推荐(0) 编辑

Spark分区器浅析

摘要：分区器作用：决定该数据在哪个分区概览：仅仅只有pairRDD才可能持有分区器，普通RDD的分区器为None 在分区器为None时RDD分区一般继承至父RDD分区初始RDD分区数：由集合创建，RDD分区数为cores总数由本地文件创建，RDD分区数为本地文件分片数由HDFS文件创建，RDD 阅读全文

posted @ 2021-08-23 15:40 梦里繁花阅读(126) 评论(0) 推荐(0) 编辑

spark运行速度优化方法

摘要：1、打开spark.sql.adaptive开关阅读全文

posted @ 2021-08-15 21:39 梦里繁花阅读(132) 评论(0) 推荐(0) 编辑

将DataFrame赋值为可变变量在spark中多次赋值后运行速度减慢的问题

摘要：该问题先标记上，之后有空了研究原因。在var dataframe后将dataframe作为参数输入某方法，将结果重新赋予该dataframe，会导致spark运行显著减慢速度。暂时不知道原因，之后研究（可以去stackoverflow提问）将数据来源改为val之后运行速度显著提高。超过100倍速度阅读全文

posted @ 2019-12-14 19:14 梦里繁花阅读(540) 评论(0) 推荐(0) 编辑

repartition导致的广播失败，关于错误Failed to get broadcast_544_piece0 of broadcast_544

摘要：今天一个生产环境任务出现了性能问题，，经过仔细检查发现是在一个join操作时，原设定广播右表数据广播失败，导致后续步骤进行缓慢，，报错信息 java.io.IOException: org.apache.spark.SparkException：Failed to get broadcast_544 阅读全文

posted @ 2019-11-05 11:17 梦里繁花阅读(1605) 评论(0) 推荐(0) 编辑

spark 解决错误java.io.InvalidClassException

摘要：今天遇到一个现场问题，任务报错java.io.InvalidClassException。在开发环境是没有报错的，正式环境报错。大概类似于下面这样（非报错原文，摘自网上同类博客） java.io.InvalidClassException: com.test.Test; local class in 阅读全文

posted @ 2019-10-21 16:29 梦里繁花阅读(4908) 评论(0) 推荐(0) 编辑

Spark RDD编程（博客索引，日常更新）

摘要：本篇主要是记录自己在中解决RDD编程性能问题中查阅的论文博客，为我认为写的不错的建立索引方便查阅，我的总结会另立他篇 1）通过分区（Partitioning）提高spark性能https://blog.csdn.net/qq_32649581/article/details/83029852 2)D 阅读全文

posted @ 2019-10-21 11:39 梦里繁花阅读(250) 评论(0) 推荐(0) 编辑

梦里繁花

随笔分类 - spark

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论