摘要: RDD的持久化策略: cache、persist、checkpoint三种策略(持久化的单位是partition) 1、cache是persist的一个简化版,会将rdd中的数据持久化到内存中 cache = persists(StorageLevel.MEMORY_ONLY) 不进行序列化特点: 阅读全文
posted @ 2019-01-20 17:59 BoyYuBaby 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 使用spark编写的WordCount! 使用java编写的WordCount! 阅读全文
posted @ 2019-01-20 15:44 BoyYuBaby 阅读(199) 评论(0) 推荐(0) 编辑