2013 年 8月 23 日随笔档案 - vincent_hv

2013年8月23日

摘要：基本概念RDDspark最大的亮点是提出RDD(Resilient Distributed Dataset)的概念，也就是可伸缩的分布式数据集合，本身只读，可恢复。spark本身不做物理储存，通过保存足够的信息去实际的储存中计算出RDDRDD只要通过四种途径获取：1、从共享的文件系统，比如HDFS2、在驱动程序里的并行scala集合(例如数组)，会发到多个节点上3、从已存在的RDD转换4、通过改变现有的RDD持久性。rdd是一个懒散，短暂的。改变一个RDD的持久化通过两个动作：cache：在第一次计算的时候保存在内存中，可以重用save：保存到一个分布式文件系统，比如hdfs，这个保存版本会用阅读全文

posted @ 2013-08-23 19:26 vincent_hv 阅读(420) 评论(0) 推荐(0) 编辑

spark概论

摘要：一、概述1.轻：（1）采用语言简洁的scala编写；（2）利用了hadoop和mesos的基础设施2.快：spark的内存计算、数据本地性和传输优化、调度优化，使其在迭代机器学习，ad-hoc query、图计算等方面是hadoop的MapReduce、hive和Pregel无法比拟的3.灵：（1）实现层：完美演绎了Scala trait动态混入策略（如可更换的集群调度器、序列化库）；（2）原语层：允许款站新的数据算子（operator）、新的数据源、新的language bindings；（3）范式层：支持内存计算、多迭代批处理、即席查询、流处理和图计算等4.巧：与Hadoop无缝结合；数据阅读全文

posted @ 2013-08-23 18:46 vincent_hv 阅读(970) 评论(0) 推荐(0) 编辑

vincent_hv

Talk is cheap, show the code!

公告