摘要: Spark提供的主要抽象是resilient distributed dataset(RDD) 弹性分布式数据集,它是跨集群节点划分的元素的集合,可以并行操作。通过从Hadoop文件系统(或任何其他Hadoop支持的文件系统)中的文件或驱动程序中现有的Scala集合开始并进行转换来创建RDD。用户还 阅读全文
posted @ 2020-05-31 15:23 sellsa 阅读(1525) 评论(0) 推荐(0) 编辑