摘要: Spark RDD和DataSet与DataFrame转换成RDD 一、什么是RDD RDD是弹性分布式数据集(resilient distributed dataset) 的简称,是一个可以参与并行操作并且可容错的元素集合。什么是并行操作呢?例如,对于一个含4个元素的数组Array,元素分别为1, 阅读全文
posted @ 2018-08-10 15:46 leboop 阅读(12933) 评论(0) 推荐(1) 编辑
摘要: Apache Mahout之协同过滤原理与实践 读书时期,选课是令人怀念的,因为自由,学生可以挑选自己喜爱的课程和老师!然而,过程并不是很美好,“系统繁忙,稍后重试!”屡有发生,于是大伙开心地约定今夜不战不休。西门的七彩路,和网吧名一样,我们从门口路过,进的却是右旁的可媛。这里网页同样坚持“系统繁忙 阅读全文
posted @ 2018-08-10 11:10 leboop 阅读(5047) 评论(1) 推荐(4) 编辑