摘要: spark持久化:cache 、persist、checkpoint 一、cache持久化 cache实际上是persist的一种简化方式,是一种懒执行的,执行action类算子才会触发,cahce后返回值要赋值给一个变量,下一个job直接基于变量进行操作。 cache操作: 结果输出: 二、spa 阅读全文
posted @ 2019-04-29 15:01 Angel_jing 阅读(1450) 评论(0) 推荐(0) 编辑
摘要: wordcount实现过程: 1、首先读取文件sc.textfile("path"),可以是本地文件,也可以是hdfs上的文件 2、首先进行扁平化操作,利用flatmap,将数据挤压出来 hello,dwj1 hello hello,dwj2 > dwj1 hello,dwj3 hello dwj2 阅读全文
posted @ 2019-04-29 11:37 Angel_jing 阅读(185) 评论(0) 推荐(0) 编辑