摘要: 聚合内置功能DataFrames提供共同聚合,例如count(),countDistinct(),avg(),max(),min(),等。虽然这些功能是专为DataFrames,spark SQL还拥有类型安全的版本,在其中的一些 scala 和 Java... 阅读全文
posted @ 2017-12-23 16:48 zhou_jun 阅读(785) 评论(0) 推荐(0) 编辑
摘要: 一, 简介 Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几... 阅读全文
posted @ 2017-12-23 15:31 zhou_jun 阅读(250) 评论(0) 推荐(0) 编辑