本周总结

这周开始了解spark技术

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一

 Spark 优势及特点
 优秀的数据模型和丰富计算抽象
首先看看MapReduce,它提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如 HDFS),所以会产生数据的复制备份,磁盘的I/O以及数据的序列化,所以在遇到需要在多个计算之间复用中间结果的操作时效率就会非常的低。而这类操作是非常常见的,例如迭代式计算,交互式数据挖掘,图计算等。

因此 AMPLab 提出了一个新的模型,叫做 RDD。

RDD 是一个可以容错且并行的数据结构(其实可以理解成分布式的集合,操作起来和操作本地集合一样简单),它可以让用户显式的将中间结果数据集保存在 内存 中,并且通过控制数据集的分区来达到数据存放处理最优化。同时 RDD 也提供了丰富的 API (map、reduce、filter、foreach、redeceByKey...)来操作数据集。
后来 RDD 被 AMPLab 在一个叫做 Spark 的框架中提供并开源。

posted @ 2023-08-29 11:27  哈哈哈老先生  阅读(8)  评论(0编辑  收藏  举报