摘要:
RDD的操作 1.1 概述 RDD整体包含两大类操作 transformation 从现有中创建一个新的数据集 action 在对数据集做一定程度的计算后将结果返回 对于所有的transformation,都是Lazy的,也就是说它不会立即执行,只是单纯的记住怎么样从原来的数据集进行转换的逻辑而已, 阅读全文
摘要:
1.RDD的创建 1.1 从一个本地的Scala集合创建 1.2 从一个外部的存储系统中创建 这里外部系统,指的是任何Hadoop(InputFormat)支持的存储系统.比如本地文本文件,HDFS,HBase,S3等等 1.2.1 textFile 1.2.2 wholeTextFiles who 阅读全文