摘要:
RDDs的基本特性 1.延迟计算 Spark对RDDs的计算是当他们第一次使用Action操作的时候。这种方式在处理大数据时很有用,可以减少数据的传输。 Spark内部记录了metadata表来表明transformation操作是否已经被相应,metadata中只记录已经被相应的Transform 阅读全文
摘要:
Spark基本概念 1.SparkContent a.Driver programs通过SparkContent对象访问Spark b.SparkContent代表和一个集群的链接 c.在shell中SparkContent对象自动创建好了,就是sc 2.Spark中的Shell 主要分为两种:py 阅读全文