随笔分类 -  spark

摘要:Peak Pool Memory Direct / Mapped --直接缓冲池和映射缓冲池峰值内存 ## 什么是直接缓冲池和映射缓冲池? 在Java中,有两种类型的缓冲池:直接缓冲池和映射缓冲池。 直接缓冲池 1)从堆外内存分配,不受JVM管理 2)占用内存较多 3)相比从JVM复制数据到本地,性 阅读全文
posted @ 2023-06-08 11:28 梦里繁花 阅读(73) 评论(0) 推荐(0) 编辑
摘要:问题描述:DataFrame的join结果不正确,dataframeA(6000无重复条数据) join dataframeB(220条无重复数据,由dataframeA转化而来,key值均源于dataframeA) 只有200条数据,丢了20条 问题验证: 1,查询丢的20条数据,均无异常,不存在 阅读全文
posted @ 2021-10-21 11:54 梦里繁花 阅读(467) 评论(0) 推荐(0) 编辑
摘要:分区器作用:决定该数据在哪个分区 概览: 仅仅只有pairRDD才可能持有分区器,普通RDD的分区器为None 在分区器为None时RDD分区一般继承至父RDD分区 初始RDD分区数: 由集合创建,RDD分区数为cores总数 由本地文件创建,RDD分区数为本地文件分片数 由HDFS文件创建,RDD 阅读全文
posted @ 2021-08-23 15:40 梦里繁花 阅读(126) 评论(0) 推荐(0) 编辑
摘要:1、打开spark.sql.adaptive开关 阅读全文
posted @ 2021-08-15 21:39 梦里繁花 阅读(132) 评论(0) 推荐(0) 编辑
摘要:该问题先标记上,之后有空了研究原因。 在var dataframe后将dataframe作为参数输入某方法,将结果重新赋予该dataframe,会导致spark运行显著减慢速度。暂时不知道原因,之后研究(可以去stackoverflow提问)将数据来源改为val之后运行速度显著提高。超过100倍速度 阅读全文
posted @ 2019-12-14 19:14 梦里繁花 阅读(540) 评论(0) 推荐(0) 编辑
摘要:今天一个生产环境任务出现了性能问题,,经过仔细检查发现是在一个join操作时,原设定广播右表数据广播失败,导致后续步骤进行缓慢,,报错信息 java.io.IOException: org.apache.spark.SparkException:Failed to get broadcast_544 阅读全文
posted @ 2019-11-05 11:17 梦里繁花 阅读(1605) 评论(0) 推荐(0) 编辑
摘要:今天遇到一个现场问题,任务报错java.io.InvalidClassException。在开发环境是没有报错的,正式环境报错。大概类似于下面这样(非报错原文,摘自网上同类博客) java.io.InvalidClassException: com.test.Test; local class in 阅读全文
posted @ 2019-10-21 16:29 梦里繁花 阅读(4908) 评论(0) 推荐(0) 编辑
摘要:本篇主要是记录自己在中解决RDD编程性能问题中查阅的论文博客,为我认为写的不错的建立索引方便查阅,我的总结会另立他篇 1)通过分区(Partitioning)提高spark性能https://blog.csdn.net/qq_32649581/article/details/83029852 2)D 阅读全文
posted @ 2019-10-21 11:39 梦里繁花 阅读(250) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示