Spark 知识

Spark 学习

  1. Spark(一): 基本架构及原理
  2. https://www.cnblogs.com/xing901022/p/8260362.html
  3. https://www.cnblogs.com/sunrye/p/6504876.html
  4. https://zhuanlan.zhihu.com/p/66947274
  5. https://juejin.im/entry/575239e16be3ff006be189f4

 

 

spark window function: https://knockdata.github.io/spark-window-function/

spark  dataframe怎么像 pandas 那样 forward-fill, backward-fill https://johnpaton.net/posts/forward-fill-spark/

spark cache 和 persistent的区别??

structed streaming 里面怎么处理 Fault Tolerance 的? 比如 这里 说支持对kafka 的容错,只是

看到写的用 ”The engine uses checkpointing and write-ahead logs to record the offset range of the data being processed in each trigger“, 但是怎么做的我还不理解. 需要深入理解

  http://ixiaosi.art/2019/02/18/spark/spark-structured-streaming%E5%88%86%E6%9E%90/

 

 

Sqoop 已经进入退休状态,它用的map reduce, spark 替代sqoop。 阿里的DataX 是sqoop的加强版

posted @ 2020-03-12 13:05  mashuai_191  阅读(114)  评论(0编辑  收藏  举报