摘要: 一 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe 阅读全文
posted @ 2019-06-22 18:25 Python++ 阅读(897) 评论(0) 推荐(0) 编辑
摘要: 一。RDD概念 1.1。RDD概述 1.1.1。什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有R 阅读全文
posted @ 2019-06-22 01:41 Python++ 阅读(198) 评论(0) 推荐(0) 编辑