Miranda要加油

2019年1月12日

摘要：一、什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作阅读全文

posted @ 2019-01-12 23:29 Miranda要加油阅读(205) 评论(0) 推荐(0)

Spark计算模型

摘要：通过一个经典的程序来说明从RDD的转换和存储角度看这个过程：用户程序对RDD通过多个函数进行操作，将RDD进行转换。 Block-Manager管理RDD的物理分区，每个Block就是节点上对应的一个数据块，可以存储在内存或者磁盘。而RDD中的partition是一个逻辑数据块，对应相应的物理阅读全文

posted @ 2019-01-12 22:50 Miranda要加油阅读(223) 评论(0) 推荐(0)

Spark简介

摘要：一、什么是Spark Apache Spark™ is a unified analytics engine for large-scale data processing. Apache Spark™ 是用于大规模数据处理的统一分析引擎。 Spark是一个实现快速通用的集群计算平台。是由AMP实验阅读全文

posted @ 2019-01-12 22:30 Miranda要加油阅读(306) 评论(0) 推荐(0)

公告