随笔分类 - spark
摘要:Peak Pool Memory Direct / Mapped --直接缓冲池和映射缓冲池峰值内存 ## 什么是直接缓冲池和映射缓冲池? 在Java中,有两种类型的缓冲池:直接缓冲池和映射缓冲池。 直接缓冲池 1)从堆外内存分配,不受JVM管理 2)占用内存较多 3)相比从JVM复制数据到本地,性
阅读全文
摘要:问题描述:DataFrame的join结果不正确,dataframeA(6000无重复条数据) join dataframeB(220条无重复数据,由dataframeA转化而来,key值均源于dataframeA) 只有200条数据,丢了20条 问题验证: 1,查询丢的20条数据,均无异常,不存在
阅读全文
摘要:分区器作用:决定该数据在哪个分区 概览: 仅仅只有pairRDD才可能持有分区器,普通RDD的分区器为None 在分区器为None时RDD分区一般继承至父RDD分区 初始RDD分区数: 由集合创建,RDD分区数为cores总数 由本地文件创建,RDD分区数为本地文件分片数 由HDFS文件创建,RDD
阅读全文
摘要:1、打开spark.sql.adaptive开关
阅读全文
摘要:该问题先标记上,之后有空了研究原因。 在var dataframe后将dataframe作为参数输入某方法,将结果重新赋予该dataframe,会导致spark运行显著减慢速度。暂时不知道原因,之后研究(可以去stackoverflow提问)将数据来源改为val之后运行速度显著提高。超过100倍速度
阅读全文
摘要:今天一个生产环境任务出现了性能问题,,经过仔细检查发现是在一个join操作时,原设定广播右表数据广播失败,导致后续步骤进行缓慢,,报错信息 java.io.IOException: org.apache.spark.SparkException:Failed to get broadcast_544
阅读全文
摘要:今天遇到一个现场问题,任务报错java.io.InvalidClassException。在开发环境是没有报错的,正式环境报错。大概类似于下面这样(非报错原文,摘自网上同类博客) java.io.InvalidClassException: com.test.Test; local class in
阅读全文
摘要:本篇主要是记录自己在中解决RDD编程性能问题中查阅的论文博客,为我认为写的不错的建立索引方便查阅,我的总结会另立他篇 1)通过分区(Partitioning)提高spark性能https://blog.csdn.net/qq_32649581/article/details/83029852 2)D
阅读全文