随笔分类 - SparkCore
摘要:1. 定义 /* * 1. 定义 * def filter(f: T => Boolean): RDD[T] * * 2. 功能 * 根据 传输函数 对Rdd元素进行过滤,剔除不符合条件的元素 * * 3. note * 1. 当数据进行筛选过滤后,分区不变,但是分区内的数据可能不均衡,生产环境下,
阅读全文
摘要:1. 定义 /* * 1. 定义 * //使用 hasPartitioner ; 分区个数使用 父RDD分区个数 * def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] * //使用 HashParti
阅读全文
摘要:1. 说明 /* * 1. 定义 * def glom(): RDD[Array[T]] * * 2. 功能 * 返回一个RDD,将每个分区内的所有元素合并成一个数组 * */ object RddTransitionOperator_glom extends App { private val s
阅读全文
摘要:1. 说明 /* * 1.定义 * def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] * * 2.功能 * 1.先将元素转换成一个迭代器 * 2.再遍历迭代器 返回新的集合 * * 3.调用流程 * 参数: 定义一个函数,作用分
阅读全文
摘要:1. 说明 /* * 定义 : * def mapPartitionsWithIndex[U: ClassTag]( * f: (Int, Iterator[T]) => Iterator[U], * preservesPartitioning: Boolean = false): RDD[U] =
阅读全文
摘要:1. 说明 /* * 定义 : * def mapPartitions[U: ClassTag]( * f: Iterator[T] => Iterator[U], * preservesPartitioning: Boolean = false): RDD[U] * 功能 : * 1. 以分区为单
阅读全文
摘要:1. 说明 定义 : def map[U: ClassTag](f: T => U): RDD[U] 功能 : 通过对 RDD的所有元素应用一个函数 返回一个新的RDD 2. 思考 : map算子 和 Rdd分区 间的关系? object MapTestByPartition extends App
阅读全文
摘要:1. 什么是Rdd 算子 rdd的方法 => rdd的算子 => rdd的操作 2. Rdd 算子的分类 1. Transformation(转换) 算子 Transformation 操作是延迟计算的 也就是说 一个RDD转换生成另一个RDD操作时是不会马上执行的,需要等待有Actions操作时,
阅读全文
摘要:1. 什么是Spark的并行度 、什么是Rdd的分区? 1. 什么是Spark的并行度 ? Driver 将任务进行切分成不同的Task, 再发送给 Executor 节点并行计算,并行计算的任务数量 我们称之为 并行度 2. 什么是Rdd的分区 ? 1. 将要操作的数据分成 若干份,以便 分布式计
阅读全文
摘要:1. 从集合(内存)中创建rdd //1. 从集合(内存)中创建rdd object initRddByList extends App { //1. 该对象用于 : Spark应用参数的配置 将Spark的各种参数设置为key,value // note : 1. 一旦一个SparkConf对象被
阅读全文
摘要:1. 思考 : 处理数据 需要哪些东西呢? 1. 计算资源(CPU&内存) 2. 计算模型(也就是计算逻辑) 2. 在Yarn 环境中,Rdd 执行流程 1. 启动 Yarn 集群环境 2. Spark 通过申请资源创建调度节点(ApplicationMaster)和计算节点(Executor) 3
阅读全文
摘要:* Internally, each RDD is characterized by five main properties:(在内部,每个RDD有五个主要特性) * * - A list of partitions /** * 方法描述 : * 1. 返回当前Rdd 的分区对象的数组 */ pr
阅读全文
摘要:1. Rdd 是什么? 1. RDD(Resilient Distributed DataSet) 弹性分布式数据集, 是Spark中最基本的数据处理模型 它代表一个弹性的、不可变、可分区、里面的元素可并行计算 的集合 2. 代码中Rdd是 抽象类 abstract class RDD[T: Cla
阅读全文
摘要:1. filter 过滤算子 object filterTest extends App { /* * filter * 作用 : 传输过滤集合元素的函数,返回一个符合条件元素的新数组(会改变集合元素个数,但不会改变元素类型) * * 定义 : def filter(p: A => Boolean)
阅读全文
摘要:/* * * 1. Executor(server) * 说明 * 负责 执行计算任务 * 2. Driver(client) * 说明 * 负责 发送计算任务 给Executor * 3. Task * 负责 组织数据 和 计算逻辑 * */ // 模拟分布式计算 package TestOne
阅读全文
摘要:在Mac环境搭建Spark项目 1. scala项目搭建 https://www.cnblogs.com/bajiaotai/p/15381309.html 2. 添加pom依赖 <!--指定当前 scala版本信息--> <dependencies> <dependency> <groupId>o
阅读全文
摘要:1. Spark 是什么 ##### 1. Spark 是什么 ` Apache Spark is a unified analytics engine for large-scale data processing 1. spark 是一个 统一的 用来分析大规模数据的 分析引擎 2. 它提供了
阅读全文