摘要: RDDs的基本特性 1.延迟计算 Spark对RDDs的计算是当他们第一次使用Action操作的时候。这种方式在处理大数据时很有用,可以减少数据的传输。 Spark内部记录了metadata表来表明transformation操作是否已经被相应,metadata中只记录已经被相应的Transform 阅读全文
posted @ 2017-08-22 22:17 2017Crown 阅读(610) 评论(0) 推荐(0) 编辑
摘要: Spark基本概念 1.SparkContent a.Driver programs通过SparkContent对象访问Spark b.SparkContent代表和一个集群的链接 c.在shell中SparkContent对象自动创建好了,就是sc 2.Spark中的Shell 主要分为两种:py 阅读全文
posted @ 2017-08-22 11:35 2017Crown 阅读(675) 评论(0) 推荐(0) 编辑