摘要: 1. DataFrame 的创建 1.1 RDD 和 DataFrame 的区别 RDD 是一种弹性分布式数据集,Spark中的基本抽象。表示一种不可变的、分区储存的集合,可以进行并行操作 DataFrame是一种以列对数据进行分组表达的分布式集合, DataFrame等同于Spark SQL中的关 阅读全文
posted @ 2021-04-11 22:50 Hubery_Jun 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 1. 创建 RDD 主要两种方式: sc.textFile 加载本地或集群文件系统中的数据,或者从 HDFS 文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件(Hadoop提供的 SequenceFile是 阅读全文
posted @ 2021-04-11 22:47 Hubery_Jun 阅读(145) 评论(0) 推荐(0) 编辑