摘要: 不同的主要点是在于其所操作的数据是结构化的, 提供了对数据更强的感知和分析能力, 能够对代码进行更深层的优化, 而这种能力是由一个叫做 Catalyst 的优化器所提供的 Catalyst 的主要运作原理是分为三步, 先对 SQL 或者 Dataset 的代码解析, 生成逻辑计划, 后对逻辑计划进行 阅读全文
posted @ 2021-11-29 11:28 胜天、半子 阅读(209) 评论(0) 推荐(0) 编辑
摘要: Dataset 是一个强类型, 并且类型安全的数据容器, 并且提供了结构化查询 API 和类似 RDD 一样的命令式 API 阅读全文
posted @ 2021-11-29 11:28 胜天、半子 阅读(586) 评论(0) 推荐(0) 编辑