05 2016 档案

摘要:本篇接着谈谈那些稍微复杂的API。 1) flatMapValues:针对Pair RDD中的每个值应用一个返回迭代器的函数,然后对返回的每个元素都生成一个对应原键的键值对记录 这个方法我最开始接触时候,总是感觉很诧异,不是太理解,现在回想起来主要原因是我接触的第一个flatMapValues的例子 阅读全文
posted @ 2016-05-23 21:31 夏天的森林 阅读(6278) 评论(0) 推荐(5) 编辑
摘要:本篇接着讲解RDD的API,讲解那些不是很容易理解的API,同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用,最后通过对RDD的API深入学习,我们还讲讲一些和RDD开发相关的scala语法。 1) aggregate(zeroValue)(seqOp,combOp) 该函数的功能和r 阅读全文
posted @ 2016-05-20 22:29 夏天的森林 阅读(5511) 评论(3) 推荐(4) 编辑
摘要:上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。 Spark是一个计算框架,是对mapreduce计算框架的改进,mapreduce计算框架是基于键值对也就是map的形式,之所以使用键 阅读全文
posted @ 2016-05-19 21:51 夏天的森林 阅读(17685) 评论(2) 推荐(5) 编辑
摘要:本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言 阅读全文
posted @ 2016-05-18 22:17 夏天的森林 阅读(103741) 评论(5) 推荐(23) 编辑

点击右上角即可分享
微信分享提示