会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
LestatZ
博客园
首页
新随笔
联系
订阅
管理
[置顶]
记录下本周末搭建个人博客的过程Mac+Hexo+GitHubPages
摘要: @ "TOC" 前言 之前本来有一个个人博客,但是因为太懒没有维护,就来投奔CSDN了。这几天突然一时兴起,让好好弄一下自己的个人博客,因为CSDN的广告实在是....一言难尽... 搜索了一般,选取一个比较简单的实现方式:即Hexo+GitHub Pages 以下记录如果搭建个人博客网站 "les
阅读全文
posted @ 2019-06-16 21:54 LestatZ
阅读(570)
评论(0)
推荐(0)
2019年5月17日
Spark中将RDD转换成DataFrame的两种方法
摘要: 总结下Spark中将RDD转换成DataFrame的两种方法, 代码如下: 方法一: 使用 方法 方法二: 使用 方法 注意 请不要将 定义在main 方法中与toDF一起使用,或与使用toDF定义在同一函数中
阅读全文
posted @ 2019-05-17 21:45 LestatZ
阅读(2527)
评论(0)
推荐(0)
2019年5月5日
关于org.apache.spark.deploy.yarn.Client类
摘要: @ "TOC" 前言 这个伴生类主要功能是创建/配置ApplicationMaster的应用程序,,准备相关的环境与资源。 Github源码地址:https://github.com/apache/spark/blob/master/resource managers/yarn/src/main/s
阅读全文
posted @ 2019-05-05 12:48 LestatZ
阅读(1698)
评论(0)
推荐(0)
2019年4月25日
Kafka中offsets.retention.minutes和log.retention.minutes之间的区别
摘要: 前言 在Kafka中,我们可能会发现两个与retention相关的配置: log.retention.minutes offsets.retention.minutes 那么它们之前的差别是什么呢? 定义 首先让我们看看它们在官方文档中的定义 名称描述类型默认值有效值重要性 log.retentio
阅读全文
posted @ 2019-04-25 21:27 LestatZ
阅读(3337)
评论(0)
推荐(0)
2019年4月11日
如何使Spark Dataframe区分具有重复名称的列,避免References ambiguous问题
摘要: 前言 有时候我们在使用Spark中执行Join时候,结果集出现重复的列名,从而导致References ambiguous问题。我们可以用以下方式来解决。 实例 首先模拟一些数据 为了防止出现重复列名的问题,首先可以指定使用哪张表的列,如下: 当然我们也可以使用别名alias: 除此之外,我们还可以
阅读全文
posted @ 2019-04-11 10:53 LestatZ
阅读(2259)
评论(0)
推荐(0)
2019年4月8日
关于sparksql中的hint
摘要: 前言 在Spark中,结构化查询可以通过指定查询提示(hint)来进行优化。 查询提示,即向查询加入注释,告诉查询优化器提供如何优化逻辑计划, 这在查询优化器无法做出最佳决策时十分有用。 Spark SQL支持COALESCE,REPARTITION以及BROADCAST提示。 在分析查询语句时,所
阅读全文
posted @ 2019-04-08 11:32 LestatZ
阅读(6966)
评论(0)
推荐(0)
2019年4月2日
如何在Spark-shell中停止打印INFO日志
摘要: 前言 在使用Spark shell做一些测试时候会产生大量无用的INFO级别的日志,因此想把它们给禁用掉。具体方法如下。 解决方法 使用自定义的Log4j.properties 然后在提交spark shell时候, 配置 == conf== 即可, 这种方法同样适用于Spark submit 也可
阅读全文
posted @ 2019-04-02 10:31 LestatZ
阅读(3314)
评论(0)
推荐(0)
2019年3月30日
关于Spark中的常见问题及解决方法(5) ——Driver OutOfMemoryError或Driver Unresponsive
摘要: 前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题,因为它会使我们的Spark应用程序崩溃。 但这类问题也经常发生,因为Driver 收集了太多的数据回到驱动程序,使其内存不足。 主要症状 Spark应用程序无应答或者崩溃 Driver日
阅读全文
posted @ 2019-03-30 11:12 LestatZ
阅读(1145)
评论(0)
推荐(0)
关于Spark中的常见问题及解决方法(4) —— Join操作
摘要: 前言 Join和Aggregation操作都可能引起Shuffle,所以这类问题一般具有相似的症状和解决办法。 主要症状 Join stage可能一直在运行,它可能包含一个或者多个task。 该Join stage前后的stage看起来一切正常。 可能的解决方法 许多Join可以被手动或自动)优化到
阅读全文
posted @ 2019-03-30 10:31 LestatZ
阅读(826)
评论(0)
推荐(0)
关于Spark中的常见问题及解决方法(3) —— Aggregations操作
摘要: 前言 如果你程序中的聚合速度较慢,请先查看 "Spark Stragglers/任务执行缓慢" 部分。 主要症状 在执行 groupby 操作时,任务执行缓慢 聚合操作的后序操作也很缓慢 可能的原因 这类问题并没有固定的解决方法。 有时候,由于作业中的数据有一些偏斜的键(即数据倾斜),导致作业执行缓
阅读全文
posted @ 2019-03-30 10:16 LestatZ
阅读(515)
评论(0)
推荐(0)
下一页
公告