摘要: 虽然默认情况下 RDD 的内容是临时的,但 Spark 提供了在 RDD 中持久化数据的机制。第一次调用动作并计算出 RDD 内容后,RDD 的内容可以存储在集群的内存或磁盘上。这样下一次需要调用依赖该 RDD 的动作时,就不需要从依赖关系中重新计算 RDD,数据可以从缓存分区中直接返回: cach 阅读全文
posted @ 2017-05-06 23:13 xuefenhu 阅读(5830) 评论(0) 推荐(0) 编辑
摘要: 在Hadoop 2.7.2集群下执行如下命令: spark-shell --master yarn --deploy-mode client 爆出下面的错误: org.apache.spark.SparkException: Yarn application has already ended! I 阅读全文
posted @ 2017-05-06 17:50 xuefenhu 阅读(641) 评论(0) 推荐(0) 编辑