只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-01 18:49 Huidoo_Yang 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 一、RDD概念与特性 1. RDD的概念 RDD(Resilient Distributed Dataset),是指弹性分布式数据集。数据集:Spark中的编程是基于RDD的,将原始数据加载到内存变成RDD,RDD再经过若干次转化,仍为RDD。分布式:读数据一般都是从分布式系统中去读,如hdfs、k 阅读全文
posted @ 2018-04-01 15:16 Huidoo_Yang 阅读(1324) 评论(0) 推荐(2) 编辑