LestatZ

[置顶] 记录下本周末搭建个人博客的过程Mac+Hexo+GitHubPages

摘要： @ "TOC" 前言之前本来有一个个人博客，但是因为太懒没有维护，就来投奔CSDN了。这几天突然一时兴起，让好好弄一下自己的个人博客，因为CSDN的广告实在是....一言难尽... 搜索了一般，选取一个比较简单的实现方式：即Hexo+GitHub Pages 以下记录如果搭建个人博客网站 "les 阅读全文

posted @ 2019-06-16 21:54 LestatZ 阅读(580) 评论(0) 推荐(0)

2019年5月17日

Spark中将RDD转换成DataFrame的两种方法

摘要：总结下Spark中将RDD转换成DataFrame的两种方法, 代码如下：方法一：使用方法方法二：使用方法注意请不要将定义在main 方法中与toDF一起使用，或与使用toDF定义在同一函数中阅读全文

posted @ 2019-05-17 21:45 LestatZ 阅读(2565) 评论(0) 推荐(0)

2019年5月5日

关于org.apache.spark.deploy.yarn.Client类

摘要： @ "TOC" 前言这个伴生类主要功能是创建/配置ApplicationMaster的应用程序，，准备相关的环境与资源。 Github源码地址：https://github.com/apache/spark/blob/master/resource managers/yarn/src/main/s 阅读全文

posted @ 2019-05-05 12:48 LestatZ 阅读(1727) 评论(0) 推荐(0)

2019年4月25日

Kafka中offsets.retention.minutes和log.retention.minutes之间的区别

摘要：前言在Kafka中，我们可能会发现两个与retention相关的配置： log.retention.minutes offsets.retention.minutes 那么它们之前的差别是什么呢？定义首先让我们看看它们在官方文档中的定义名称描述类型默认值有效值重要性 log.retentio 阅读全文

posted @ 2019-04-25 21:27 LestatZ 阅读(3394) 评论(0) 推荐(0)

2019年4月11日

如何使Spark Dataframe区分具有重复名称的列，避免References ambiguous问题

摘要：前言有时候我们在使用Spark中执行Join时候，结果集出现重复的列名，从而导致References ambiguous问题。我们可以用以下方式来解决。实例首先模拟一些数据为了防止出现重复列名的问题，首先可以指定使用哪张表的列，如下：当然我们也可以使用别名alias：除此之外，我们还可以阅读全文

posted @ 2019-04-11 10:53 LestatZ 阅读(2322) 评论(0) 推荐(0)

2019年4月8日

关于sparksql中的hint

摘要：前言在Spark中，结构化查询可以通过指定查询提示(hint)来进行优化。查询提示，即向查询加入注释，告诉查询优化器提供如何优化逻辑计划，这在查询优化器无法做出最佳决策时十分有用。 Spark SQL支持COALESCE，REPARTITION以及BROADCAST提示。在分析查询语句时，所阅读全文

posted @ 2019-04-08 11:32 LestatZ 阅读(7108) 评论(0) 推荐(0)

2019年4月2日

如何在Spark-shell中停止打印INFO日志

摘要：前言在使用Spark shell做一些测试时候会产生大量无用的INFO级别的日志，因此想把它们给禁用掉。具体方法如下。解决方法使用自定义的Log4j.properties 然后在提交spark shell时候, 配置 == conf== 即可，这种方法同样适用于Spark submit 也可阅读全文

posted @ 2019-04-02 10:31 LestatZ 阅读(3452) 评论(0) 推荐(0)

2019年3月30日

关于Spark中的常见问题及解决方法(5) ——Driver OutOfMemoryError或Driver Unresponsive

摘要：前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题，因为它会使我们的Spark应用程序崩溃。但这类问题也经常发生，因为Driver 收集了太多的数据回到驱动程序，使其内存不足。主要症状 Spark应用程序无应答或者崩溃 Driver日阅读全文

posted @ 2019-03-30 11:12 LestatZ 阅读(1189) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(4) —— Join操作

摘要：前言 Join和Aggregation操作都可能引起Shuffle，所以这类问题一般具有相似的症状和解决办法。主要症状 Join stage可能一直在运行，它可能包含一个或者多个task。该Join stage前后的stage看起来一切正常。可能的解决方法许多Join可以被手动或自动）优化到阅读全文

posted @ 2019-03-30 10:31 LestatZ 阅读(848) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(3) —— Aggregations操作

摘要：前言如果你程序中的聚合速度较慢，请先查看 "Spark Stragglers/任务执行缓慢" 部分。主要症状在执行 groupby 操作时，任务执行缓慢聚合操作的后序操作也很缓慢可能的原因这类问题并没有固定的解决方法。有时候，由于作业中的数据有一些偏斜的键(即数据倾斜)，导致作业执行缓阅读全文

posted @ 2019-03-30 10:16 LestatZ 阅读(558) 评论(0) 推荐(0)

公告