瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理

2014年8月21日 #

摘要: 在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,比如说:map、filter、group by等都算一次操作,这个状态有可能是从前一状态转换而来的;因此换句话说一个RDD可能与之前的RDD(s)有依赖关系;RDD之间存在依赖关系;根据依赖关系的不同,可以将RDD分成两种不同的类型:宽... 阅读全文
posted @ 2014-08-21 15:57 瞌睡中的葡萄虎 阅读(1299) 评论(0) 推荐(1) 编辑

摘要: 记录下提交过程,易忘供查询用。内容源自田总的分享。1)在github上fork一份最新的master代码2)用社区代码库创建本地仓库git clone https://github.com/apache/spark test-spark3)加入自己的github代码库cd test-sparkgit... 阅读全文
posted @ 2014-08-21 15:38 瞌睡中的葡萄虎 阅读(979) 评论(0) 推荐(0) 编辑