摘要:
1 简述 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为PairRDD。 2 创建PairRDD 2.1 在sprk中,很多存储键值对的数据在读取时直接返回由其键值对数据组成的PairRDD。 2.2 可以调用map()函数,将一个普通的RDD转换为PairRDD。 sca 阅读全文
摘要:
1 简述 spark中的RDD是一个分布式的元素集合。 在spark中,对数据的所有操作不外乎创建RDD,转化RDD以及调用RDD操作进行求值,而这些操作,spark会自动将RDD中的数据分发到集群上,并将操作并行执行。 2 创建 RDD 创建RDD分两种:读取外部数据集,在程序中对一个集合进行并行 阅读全文