2017 年 5月 6 日随笔档案 - xuefenhu

2017年5月6日

摘要：虽然默认情况下 RDD 的内容是临时的，但 Spark 提供了在 RDD 中持久化数据的机制。第一次调用动作并计算出 RDD 内容后，RDD 的内容可以存储在集群的内存或磁盘上。这样下一次需要调用依赖该 RDD 的动作时，就不需要从依赖关系中重新计算 RDD，数据可以从缓存分区中直接返回： cach 阅读全文

posted @ 2017-05-06 23:13 xuefenhu 阅读(5847) 评论(0) 推荐(0) 编辑

执行”spark-shell –master yarn –deploy-mode client”,虚拟内存大小溢出，报错

摘要：在Hadoop 2.7.2集群下执行如下命令： spark-shell --master yarn --deploy-mode client 爆出下面的错误： org.apache.spark.SparkException: Yarn application has already ended! I 阅读全文

posted @ 2017-05-06 17:50 xuefenhu 阅读(658) 评论(0) 推荐(0) 编辑

HU Xuefeng's blog

At the speed of idea.