摘要:
在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,比如说:map、filter、group by等都算一次操作,这个状态有可能是从前一状态转换而来的;因此换句话说一个RDD可能与之前的RDD(s)有依赖关系;RDD之间存在依赖关系;根据依赖关系的不同,可以将RDD分成两种不同的类型:宽... 阅读全文
2014年8月21日 #
摘要:
记录下提交过程,易忘供查询用。内容源自田总的分享。1)在github上fork一份最新的master代码2)用社区代码库创建本地仓库git clone https://github.com/apache/spark test-spark3)加入自己的github代码库cd test-sparkgit... 阅读全文