摘要: RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等 阅读全文
posted @ 2016-12-05 12:57 Syn良子 阅读(3913) 评论(1) 推荐(1) 编辑