会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
有所奢望,那就去努力呗
记录下遇到的一些问题
博客园
首页
新随笔
联系
订阅
管理
2019年9月25日
3-JavaSe-1-stream-1-流库特征
摘要: 1.parallelStream可以让流库以并行方式来执行过滤和计数。 2.使用流,可以说明想要完成什么任务,而不是说明如何去使用它。 3.流不会改变,总会新建(中间流转换操作)
阅读全文
posted @ 2019-09-25 23:18 yunlk
阅读(91)
评论(0)
推荐(0)
编辑
2-Spark-1-性能调优-数据倾斜2-Join/Broadcast的使用场景
摘要: 技术点:RDD的join操作可能产生数据倾斜,当两个RDD不是非常大的情况下,可以通过Broadcast的方式在reduce端进行类似(Join)的操作: broadcast是进程级别的,只读的。 broadcast 可以适用于小表的广播,通过广播到对应节点的内存中(受blockManager的管理
阅读全文
posted @ 2019-09-25 23:03 yunlk
阅读(233)
评论(0)
推荐(0)
编辑
1-Spark-1-性能调优-数据倾斜1-特征/常见原因/后果/常见调优方案
摘要: 数据倾斜特征:个别Task处理大部分数据 后果:1.OOM;2.速度变慢,甚至变得慢的不可接受 常见原因: 数据倾斜的定位: 1.WebUI(查看Task运行的数据量的大小)。 2.Log,查看log中哪一行出现OOM,查找具体哪个Stage,进而确定哪一个shuffle产生了数据倾斜。 3.查看代
阅读全文
posted @ 2019-09-25 13:12 yunlk
阅读(190)
评论(0)
推荐(0)
编辑
公告