摘要: 一、什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作 阅读全文
posted @ 2019-01-12 23:29 Miranda要加油 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 通过一个经典的程序来说明 从RDD的转换和存储角度看这个过程: 用户程序对RDD通过多个函数进行操作,将RDD进行转换。 Block-Manager管理RDD的物理分区,每个Block就是节点上对应的一个数据块,可以存储在内存或者磁盘。 而RDD中的partition是一个逻辑数据块,对应相应的物理 阅读全文
posted @ 2019-01-12 22:50 Miranda要加油 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 一、什么是Spark Apache Spark™ is a unified analytics engine for large-scale data processing. Apache Spark™ 是用于大规模数据处理的统一分析引擎。 Spark是一个实现快速通用的集群计算平台。是由AMP实验 阅读全文
posted @ 2019-01-12 22:30 Miranda要加油 阅读(267) 评论(0) 推荐(0) 编辑