摘要: 引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说, 阅读全文
posted @ 2021-01-06 11:27 Binge-和时间做朋友 阅读(615) 评论(0) 推荐(0) 编辑