花未全开*月未圆

2019年11月29日

摘要：故障排除一：控制reduce端缓冲大小以避免OOM 在Shuffle过程，reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取，而是map端写一点数据，reduce端task就会拉取一小部分数据，然后立即进行后面的聚合、算子函数的使用等操作。 reduce端task能够拉取阅读全文

posted @ 2019-11-29 18:53 花未全开*月未圆阅读(378) 评论(0) 推荐(0)

spark调优——数据倾斜

摘要： Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如，reduce点一共要处理100万条数据，第一个和第二个task分别被分配到了1万条数据，计算5分钟内完成，第三个task分配到了98万数据，此阅读全文

posted @ 2019-11-29 18:48 花未全开*月未圆阅读(258) 评论(0) 推荐(0)

spark调优——JVM调优

摘要：对于JVM调优，首先应该明确，(major)full gc/minor gc，都会导致JVM的工作线程停止工作，即stop the world。 JVM调优一：降低cache操作的内存占比 1. 静态内存管理机制根据Spark静态内存管理机制，堆内存被划分为了两块，Storage和Executio 阅读全文

posted @ 2019-11-29 18:42 花未全开*月未圆阅读(370) 评论(0) 推荐(0)

spark调优——Shuffle调优

摘要：在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spark任务的整体性能。 map端缓冲的默认阅读全文

posted @ 2019-11-29 18:40 花未全开*月未圆阅读(354) 评论(0) 推荐(0)

spark调优——算子调优

摘要：算子调优一：mapPartitions 普通的map算子对RDD中的每一个元素进行操作，而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子，假设一个partition有1万条数据，那么map算子中的function要执行1万次，也就是对每个元素进行操作。如果是ma 阅读全文

posted @ 2019-11-29 18:35 花未全开*月未圆阅读(639) 评论(0) 推荐(0)

Spark常规性能调优

摘要： 1.1.1 常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定，标准的Spark任务提交脚本如代阅读全文

posted @ 2019-11-29 18:30 花未全开*月未圆阅读(300) 评论(0) 推荐(0)

Spark：性能调优

摘要：资源参数调优了解完了Spark作业运行的基本原理之后，对资源相关的参数就容易理解了。所谓的Spark资源参数调优，其实主要就是对Spark运行过程中各个使用资源的地方，通过调节各种参数，来优化资源使用的效率，从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数，每个参数都对应着阅读全文

posted @ 2019-11-29 18:12 花未全开*月未圆阅读(248) 评论(0) 推荐(0)

SparkStreaming 性能、稳定、容错与语义

摘要：怎样提高Spark Streaming的性能 1、创建多个接收器待定：： 2、调节每一个batch interval的数据块的数量，其实就是调整上面第二个问题中提到的配置spark.streaming.blockInterva 待定：： 3、调整Recevier每秒接收数据的速率待定：： 4、通阅读全文

posted @ 2019-11-29 18:06 花未全开*月未圆阅读(493) 评论(0) 推荐(0)

SparkStreaming运行原理

摘要： Spark Streaming应用也是Spark应用，Spark Streaming生成的DStream最终也是会转化成RDD，然后进行RDD的计算，所以Spark Streaming最终的计算是RDD的计算，那么Spark Streaming的原理当然也包含了Spark应用通用的原理。Spark 阅读全文

posted @ 2019-11-29 17:59 花未全开*月未圆阅读(742) 评论(0) 推荐(0)

Spark SQL中的Catalyst 的工作机制

摘要： Spark SQL中的Catalyst 的工作机制答：不管是SQL、Hive SQL还是DataFrame、Dataset触发Action Job的时候，都会经过解析变成unresolved的逻辑执行计划，然后利用元数据信息对unresolved的逻辑执行计算进行分析，得到逻辑执行计划，然后对逻辑阅读全文

posted @ 2019-11-29 17:46 花未全开*月未圆阅读(502) 评论(0) 推荐(0)

花未全开*月未圆

谦虚谨慎，戒骄戒躁，稳中求进，悟道行之

公告