摘要: 基本概念RDDspark最大的亮点是提出RDD(Resilient Distributed Dataset)的概念,也就是可伸缩的分布式数据集合,本身只读,可恢复。spark本身不做物理储存,通过保存足够的信息去实际的储存中计算出RDDRDD只要通过四种途径获取:1、从共享的文件系统,比如HDFS2、在驱动程序里的并行scala集合(例如数组),会发到多个节点上3、从已存在的RDD转换4、通过改变现有的RDD持久性。rdd是一个懒散,短暂的。改变一个RDD的持久化通过两个动作:cache:在第一次计算的时候保存在内存中,可以重用save:保存到一个分布式文件系统,比如hdfs,这个保存版本会用 阅读全文
posted @ 2013-08-23 19:26 vincent_hv 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 一、概述1.轻:(1)采用语言简洁的scala编写;(2)利用了hadoop和mesos的基础设施2.快:spark的内存计算、数据本地性和传输优化、调度优化,使其在迭代机器学习,ad-hoc query、图计算等方面是hadoop的MapReduce、hive和Pregel无法比拟的3.灵:(1)实现层:完美演绎了Scala trait动态混入策略(如可更换的集群调度器、序列化库);(2)原语层:允许款站新的数据算子(operator)、新的数据源、新的language bindings;(3)范式层:支持内存计算、多迭代批处理、即席查询、流处理和图计算等4.巧:与Hadoop无缝结合;数据 阅读全文
posted @ 2013-08-23 18:46 vincent_hv 阅读(970) 评论(0) 推荐(0) 编辑