Spark学习路线
1 快速入门
官方快速入门文档:https://spark.apache.org/docs/3.1.1/quick-start.html
Spark教程 https://www.yiibai.com/spark/apache-spark-filter-function.html
2 Spark原理
1.1 Spark Core
1.1.1 Spark 内存管理
1、Spark Executor内存管理 http://arganzheng.life/spark-executor-memory-management.html
1.1.1 Spark 内置函数 https://www.yiibai.com/spark/apache-spark-filter-function.html
1.2 SparkSQL
1.2.1 Spark SQL 特性
1)动态分区裁剪(Dynamic Partition Pruning)
一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning) https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTMwNQ==&mid=2650718656&idx=1&sn=57de5460e470cb9e475799b972576463&chksm=887ddcb6bf0a55a0569c134bbfab39efd91fef01407df60c4e3681486856972b4e70c15a4b92&scene=21#wechat_redirect
一文了解 Apache Spark 3.0 动态分区裁剪的使用 https://zhuanlan.zhihu.com/p/92780641
2)自适应 Adaptive Execution
SparkSQL的自适应执行-Adaptive Execution https://blog.csdn.net/u013411339/article/details/107075125
数据倾斜?Spark 3.0 AQE专治各种不服 https://www.cnblogs.com/importbigdata/p/14318575.html
3) Physical Plans in Spark SQL https://www.youtube.com/watch?v=9EIzhRKpiM8
3) Spark的五种JOIN策略解析 https://jiamaoxiang.top/2020/11/01/Spark%E7%9A%84%E4%BA%94%E7%A7%8DJOIN%E6%96%B9%E5%BC%8F%E8%A7%A3%E6%9E%90/
4)hint语法
Spark SQL 查询中 Coalesce 和 Repartition 暗示(Hint) https://www.iteblog.com/archives/2501.html
1.3 SparkStreaming
1.4 Pyspark
1.5 Structured Streaming
1.6 Graphx
1.7 MLLib
3 性能调优
1、官方调优指南 https://spark.apache.org/docs/3.1.1/tuning.html
2、Spark性能优化指南——基础篇(美团团队) https://tech.meituan.com/2016/04/29/spark-tuning-basic.html
3、Spark性能优化指南——高级篇(美团团队)https://tech.meituan.com/2016/05/12/spark-tuning-pro.html
4 常见问题
1、数据倾斜
Hive之数据倾斜原因及解决方法 http://blog.sina.com.cn/s/blog_7bbd4ce50102xer9.html3
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势 http://www.jasongj.com/spark/skew/
Spark数据倾斜案例测试及调优准则深入剖析-Spark商业调优实战 https://blog.csdn.net/shenshouniu/article/details/83783067