2022 年 1月 24 日随笔档案 - 干了这瓶老干妈

2022年1月24日

摘要： RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素，在集群的节点之间进行分区，以便我们可以对其执行各种并行操作。创建RDD的两种方式：并行化驱动程序中的现有数据；引用外部存储系统中的数据集。并行化集合要创建并行化集合，在驱动程序中现有的集合上调用SparkContext的par 阅读全文

posted @ 2022-01-24 17:23 干了这瓶老干妈阅读(54) 评论(0) 推荐(0) 编辑

了解Spark

摘要： Apache Spark是一个开源的集群计算框架，主要用来处理实时生成的数据。 Spark是建立在Hadoop的MapReduce顶部。它被优化到了内存中运行，而MapReduce等替代方法是将数据写入硬盘或从硬盘中写入数据，因此，Spark比其它替代方法运行速度更快。 Apache Spark的特阅读全文

posted @ 2022-01-24 14:40 干了这瓶老干妈阅读(510) 评论(0) 推荐(0) 编辑

成长小港

公告