摘要: RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素,在集群的节点之间进行分区,以便我们可以对其执行各种并行操作。 创建RDD的两种方式: 并行化驱动程序中的现有数据; 引用外部存储系统中的数据集。 并行化集合 要创建并行化集合,在驱动程序中现有的集合上调用SparkContext的par 阅读全文
posted @ 2022-01-24 17:23 干了这瓶老干妈 阅读(54) 评论(0) 推荐(0) 编辑
摘要: Apache Spark是一个开源的集群计算框架,主要用来处理实时生成的数据。 Spark是建立在Hadoop的MapReduce顶部。它被优化到了内存中运行,而MapReduce等替代方法是将数据写入硬盘或从硬盘中写入数据,因此,Spark比其它替代方法运行速度更快。 Apache Spark的特 阅读全文
posted @ 2022-01-24 14:40 干了这瓶老干妈 阅读(510) 评论(0) 推荐(0) 编辑
Live2D