摘要:
@ "TOC" 前言 之前本来有一个个人博客,但是因为太懒没有维护,就来投奔CSDN了。这几天突然一时兴起,让好好弄一下自己的个人博客,因为CSDN的广告实在是....一言难尽... 搜索了一般,选取一个比较简单的实现方式:即Hexo+GitHub Pages 以下记录如果搭建个人博客网站 "les 阅读全文
摘要:
总结下Spark中将RDD转换成DataFrame的两种方法, 代码如下: 方法一: 使用 方法 方法二: 使用 方法 注意 请不要将 定义在main 方法中与toDF一起使用,或与使用toDF定义在同一函数中 阅读全文
摘要:
@ "TOC" 前言 这个伴生类主要功能是创建/配置ApplicationMaster的应用程序,,准备相关的环境与资源。 Github源码地址:https://github.com/apache/spark/blob/master/resource managers/yarn/src/main/s 阅读全文
摘要:
前言 在Kafka中,我们可能会发现两个与retention相关的配置: log.retention.minutes offsets.retention.minutes 那么它们之前的差别是什么呢? 定义 首先让我们看看它们在官方文档中的定义 名称描述类型默认值有效值重要性 log.retentio 阅读全文
摘要:
前言 有时候我们在使用Spark中执行Join时候,结果集出现重复的列名,从而导致References ambiguous问题。我们可以用以下方式来解决。 实例 首先模拟一些数据 为了防止出现重复列名的问题,首先可以指定使用哪张表的列,如下: 当然我们也可以使用别名alias: 除此之外,我们还可以 阅读全文
摘要:
前言 在Spark中,结构化查询可以通过指定查询提示(hint)来进行优化。 查询提示,即向查询加入注释,告诉查询优化器提供如何优化逻辑计划, 这在查询优化器无法做出最佳决策时十分有用。 Spark SQL支持COALESCE,REPARTITION以及BROADCAST提示。 在分析查询语句时,所 阅读全文
摘要:
前言 在使用Spark shell做一些测试时候会产生大量无用的INFO级别的日志,因此想把它们给禁用掉。具体方法如下。 解决方法 使用自定义的Log4j.properties 然后在提交spark shell时候, 配置 == conf== 即可, 这种方法同样适用于Spark submit 也可 阅读全文
摘要:
前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题,因为它会使我们的Spark应用程序崩溃。 但这类问题也经常发生,因为Driver 收集了太多的数据回到驱动程序,使其内存不足。 主要症状 Spark应用程序无应答或者崩溃 Driver日 阅读全文
摘要:
前言 Join和Aggregation操作都可能引起Shuffle,所以这类问题一般具有相似的症状和解决办法。 主要症状 Join stage可能一直在运行,它可能包含一个或者多个task。 该Join stage前后的stage看起来一切正常。 可能的解决方法 许多Join可以被手动或自动)优化到 阅读全文
摘要:
前言 如果你程序中的聚合速度较慢,请先查看 "Spark Stragglers/任务执行缓慢" 部分。 主要症状 在执行 groupby 操作时,任务执行缓慢 聚合操作的后序操作也很缓慢 可能的原因 这类问题并没有固定的解决方法。 有时候,由于作业中的数据有一些偏斜的键(即数据倾斜),导致作业执行缓 阅读全文