摘要:
spark 算子的分类 转换算子 transformations 延迟执行--针对RDD的操作 操作算子 Action 触发执行 常用算子归纳 程序示例 transformations map、mapPartitions、mapPartitionsWithIndex package com.shuj 阅读全文
摘要:
RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo2Partition { def main 阅读全文
摘要:
什么是 RDD RDD 全称 ResilientDistributedDataset (弹性分布式数据集 ) RDD 仅为一个抽象的编程模型,RDD 默认没有数据 RDD 的五大特性 A list of partitions 由一组分区组成,默认一个 Block 块对应一个 partition A 阅读全文
摘要:
spark 的简介 什么是 spark ? spark 与 MapReduce spark 是 一个计算引擎,是用来代替 MapReduce 的 MapReduce 的优点:稳定 spark 的优点:快 Apache Spark is an open source cluster computing 阅读全文