2020 年 5月 30 日随笔档案 - 夏日的向日葵

2020年5月30日

摘要： Spark对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset），简称RDD。RDD其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这背后，Spark会自动将RDD中的数据分发到集群阅读全文

posted @ 2020-05-30 20:55 夏日的向日葵阅读(286) 评论(0) 推荐(0) 编辑

初识spark

摘要： Spark是一个用来实现快速而通用的集群计算的平台。Spark的一个主要特点就是能够在内存中进行计算，因而更快。不过即使必须在磁盘上进行复杂的计算，Spark依然比MapReduce更加高效。Spark的核心是一个由很多计算任务组成的、运行在很多工作机器或者是一个计算集群上的应用进行调度、分发以及监阅读全文

posted @ 2020-05-30 12:29 夏日的向日葵阅读(149) 评论(0) 推荐(0) 编辑

夏日的向日葵

公告