SparkCore - 随笔分类(第3页) - 学而不思则罔！

第五章_Spark核心编程_Rdd_转换算子_Value型_filter

摘要：1. 定义 /* * 1. 定义 * def filter(f: T => Boolean): RDD[T] * * 2. 功能 * 根据传输函数对Rdd元素进行过滤,剔除不符合条件的元素 * * 3. note * 1. 当数据进行筛选过滤后,分区不变,但是分区内的数据可能不均衡,生产环境下, 阅读全文

posted @ 2022-03-23 12:36 学而不思则罔！阅读(65) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_Rdd_转换算子_Value型_groupBy算子

摘要：1. 定义 /* * 1. 定义 * //使用 hasPartitioner ; 分区个数使用父RDD分区个数 * def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] * //使用 HashParti 阅读全文

posted @ 2022-03-23 12:15 学而不思则罔！阅读(126) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子

摘要：1. 说明 /* * 1. 定义 * def glom(): RDD[Array[T]] * * 2. 功能 * 返回一个RDD,将每个分区内的所有元素合并成一个数组 * */ object RddTransitionOperator_glom extends App { private val s 阅读全文

posted @ 2022-03-23 08:30 学而不思则罔！阅读(146) 评论(2) 推荐(0) 编辑

第五章_Spark核心编程_Rdd_转换算子_Value型_flatMap算子

摘要：1. 说明 /* * 1.定义 * def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] * * 2.功能 * 1.先将元素转换成一个迭代器 * 2.再遍历迭代器返回新的集合 * * 3.调用流程 * 参数: 定义一个函数,作用分阅读全文

posted @ 2022-03-23 07:56 学而不思则罔！阅读(46) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_Rdd_转换算子_Value型_mapPartitionsWithIndex算子

摘要：1. 说明 /* * 定义 : * def mapPartitionsWithIndex[U: ClassTag]( * f: (Int, Iterator[T]) => Iterator[U], * preservesPartitioning: Boolean = false): RDD[U] = 阅读全文

posted @ 2022-03-22 20:44 学而不思则罔！阅读(38) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_Rdd_转换算子_Value型_mapPartitions算子

摘要：1. 说明 /* * 定义 : * def mapPartitions[U: ClassTag]( * f: Iterator[T] => Iterator[U], * preservesPartitioning: Boolean = false): RDD[U] * 功能 : * 1. 以分区为单阅读全文

posted @ 2022-03-22 20:20 学而不思则罔！阅读(49) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_Rdd_转换算子_Value型_map

摘要：1. 说明定义 : def map[U: ClassTag](f: T => U): RDD[U] 功能 : 通过对 RDD的所有元素应用一个函数返回一个新的RDD 2. 思考 : map算子和 Rdd分区间的关系? object MapTestByPartition extends App 阅读全文

posted @ 2022-03-22 19:00 学而不思则罔！阅读(53) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_Rdd算子的分类与定义

摘要：1. 什么是Rdd 算子 rdd的方法 => rdd的算子 => rdd的操作 2. Rdd 算子的分类 1. Transformation(转换) 算子 Transformation 操作是延迟计算的也就是说一个RDD转换生成另一个RDD操作时是不会马上执行的,需要等待有Actions操作时, 阅读全文

posted @ 2022-03-22 18:39 学而不思则罔！阅读(78) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_Rdd并行度与切片

摘要：1. 什么是Spark的并行度、什么是Rdd的分区? 1. 什么是Spark的并行度 ? Driver 将任务进行切分成不同的Task, 再发送给 Executor 节点并行计算,并行计算的任务数量我们称之为并行度 2. 什么是Rdd的分区 ? 1. 将要操作的数据分成若干份,以便分布式计阅读全文

posted @ 2022-03-21 17:37 学而不思则罔！阅读(399) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_创建Rdd

摘要：1. 从集合(内存)中创建rdd //1. 从集合(内存)中创建rdd object initRddByList extends App { //1. 该对象用于 : Spark应用参数的配置将Spark的各种参数设置为key,value // note : 1. 一旦一个SparkConf对象被阅读全文

posted @ 2022-03-21 16:17 学而不思则罔！阅读(96) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_Rdd执行原理

摘要：1. 思考 : 处理数据需要哪些东西呢？ 1. 计算资源(CPU&内存) 2. 计算模型(也就是计算逻辑) 2. 在Yarn 环境中,Rdd 执行流程 1. 启动 Yarn 集群环境 2. Spark 通过申请资源创建调度节点(ApplicationMaster)和计算节点(Executor) 3 阅读全文

posted @ 2022-03-21 16:11 学而不思则罔！阅读(28) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_Rdd五个核心属性

摘要：* Internally, each RDD is characterized by five main properties:(在内部，每个RDD有五个主要特性) * * - A list of partitions /** * 方法描述 : * 1. 返回当前Rdd 的分区对象的数组 */ pr 阅读全文

posted @ 2022-03-21 15:09 学而不思则罔！阅读(47) 评论(0) 推荐(0) 编辑

第五章_Spark核心编程_什么是Rdd

摘要：1. Rdd 是什么? 1. RDD(Resilient Distributed DataSet) 弹性分布式数据集, 是Spark中最基本的数据处理模型它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合 2. 代码中Rdd是抽象类 abstract class RDD[T: Cla 阅读全文

posted @ 2022-03-21 15:07 学而不思则罔！阅读(140) 评论(0) 推荐(0) 编辑

48_Scala 自带集合算子(filter、map、flatten、flatMap、group、reudce、fold)

摘要：1. filter 过滤算子 object filterTest extends App { /* * filter * 作用 : 传输过滤集合元素的函数,返回一个符合条件元素的新数组（会改变集合元素个数,但不会改变元素类型） * * 定义 : def filter(p: A => Boolean) 阅读全文

posted @ 2022-03-17 22:24 学而不思则罔！阅读(387) 评论(0) 推荐(0) 编辑

03_用Socket模拟分布式计算(模拟Driver、Executor、RDD)

摘要：/* * * 1. Executor(server) * 说明 * 负责执行计算任务 * 2. Driver(client) * 说明 * 负责发送计算任务给Executor * 3. Task * 负责组织数据和计算逻辑 * */ // 模拟分布式计算 package TestOne 阅读全文

posted @ 2021-11-23 17:21 学而不思则罔！阅读(87) 评论(0) 推荐(0) 编辑

02_手把手教你在IDEA搭建Spark项目开发环境(Mac)

摘要：在Mac环境搭建Spark项目 1. scala项目搭建 https://www.cnblogs.com/bajiaotai/p/15381309.html 2. 添加pom依赖  <dependencies> <dependency> <groupId>o 阅读全文

posted @ 2021-11-09 15:03 学而不思则罔！阅读(710) 评论(0) 推荐(0) 编辑

01_Spark 基本介绍

摘要：1. Spark 是什么 ##### 1. Spark 是什么 ` Apache Spark is a unified analytics engine for large-scale data processing 1. spark 是一个统一的用来分析大规模数据的分析引擎 2. 它提供了阅读全文

posted @ 2021-11-09 14:27 学而不思则罔！阅读(44) 评论(0) 推荐(0) 编辑

私人小院

随笔分类 - SparkCore

公告

搜索

常用链接

随笔分类

随笔档案

linux运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论