摘要:
一、RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD的属性 1) 一组分区(Partition),即数据集 阅读全文
摘要:
非数字列都要加引号 where是对原表过滤,having是对结果表,where不能使用聚合函数 GROUP BY 和 HAVING 是从表中选取数据时用来改变抽取数据形式的, 而 ORDER BY 是用来指定取得结果显示顺序的 阅读全文