spark UI 界面解释及数据倾斜处理办法
spark UI 界面:http://blog.csdn.net/u013013024/article/details/73498508
几个概念的解释:http://blog.csdn.net/jiangwlee/article/details/50774561
数据倾斜处理:
https://blog.csdn.net/kaede1209/article/details/81145560
https://www.cnblogs.com/frankdeng/p/9301695.html
- http://www.jasongj.com/spark/skew/
- https://www.iteblog.com/archives/1671.html
- https://blog.csdn.net/lsshlsw/article/details/52025949
总结
数据倾斜无法避免,也有没有一劳永逸的解决方式,处理数据倾斜是一个长期的过程需要我们慢慢积累经验,基本思想就是
1.首先从源头选择可以split的数据源,从源头避免倾斜
2.shufle过程中,增加并行度,减少shuffle 在map-side进行数据合并,避免reduce fetch数据倾斜
3.sample采样将倾斜的数据,特殊处理,这个方法可以适用于所有的数据倾斜问题, 另外,就是我们尽量使用spark-sql,spark-sql里面优化器提供很多基本CRO和CBO的优化策略,不仅帮我们从源头帮我们去除无关的数据减少计算数据量,其次在计算过程中会根据我们的table 的数据量,自动帮我们计算合适task partition数量,和选择合适join策略,从而提升计算性能,也避免shufle 数据倾斜
原文链接:https://blog.csdn.net/kaede1209/java/article/details/81145560