Spark - 随笔分类 - 嘣嘣嚓

Spark-作业执行流程概述

摘要：Spark-作业执行流程概述 spark的作业和任务带哦度系统是其核心，它能够有效地进行调度根本原因是对任务划分DAG和容错，使得它对底层到顶层的各个模块之间的调用和处理显的游刃有余。相关术语作业（job）：RDD中由行动操作所生成的一个或多个调度阶段调度阶段（stage）：每个作业会因为RD 阅读全文

posted @ 2020-04-06 19:38 嘣嘣嚓阅读(1223) 评论(0) 推荐(0)

Kafka+SparkStreaming+Zookeeper(ZK存储Offset,解决checkpoint问题)

摘要：创建一个topic 查看topic列表 producer 代码如下 Streaming代码如下出现的问题使用simpleConsumer时报错再次尝试即可. 阅读全文

posted @ 2018-08-14 16:42 嘣嘣嚓阅读(744) 评论(0) 推荐(0)

Spark-运行时架构

摘要：Spark运行时架构在分布式环境下，Spark集群采用的时主/从结构。在一个Spark集群中，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)，与之对应的工作节点被称为执行器节点(executor).驱动器节点可以和大量的执行器节点进行通信，它们也都作为阅读全文

posted @ 2018-07-08 22:37 嘣嘣嚓阅读(279) 评论(0) 推荐(0)

摘要：package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import org.apache.spark.Partitioner; import org.apache.spark.SparkConf; import org.apache.spark.api.java.J... 阅读全文

posted @ 2018-07-02 16:47 嘣嘣嚓阅读(429) 评论(0) 推荐(0)

Spark常用算子-value数据类型的算子

摘要：package com.test; import java.util.ArrayList; import java.util.Arrays; import java.util.Iterator; import java.util.List; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.s... 阅读全文

posted @ 2018-07-02 16:46 嘣嘣嚓阅读(428) 评论(0) 推荐(0)

Spark操作算子本质-RDD的容错

摘要：Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群中只能有一个资源调度，如果有两个资源调度的话，master和resourcemanager之间是不通阅读全文

posted @ 2018-03-12 22:07 嘣嘣嚓阅读(304) 评论(0) 推荐(0)

Spark集群搭建（local、standalone、yarn）

摘要：Spark集群搭建 local本地模式下载安装包解压即可使用，测试（2.2版本）./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./examples/jars/spark-examples 阅读全文

posted @ 2018-03-12 22:03 嘣嘣嚓阅读(536) 评论(0) 推荐(0)

Spark持久化策略

摘要：spark持久化策略_缓存优化persist、cache都是持久化到内存缓存策略 StorageLevel_useDisk：是否使用磁盘_useMemory：是否使用内存_useOffHeap：不用堆内存，找tackyon_deserialized：不序列化（序列化可理解为压缩，节省内存磁盘空间，但阅读全文

posted @ 2018-03-12 21:59 嘣嘣嚓阅读(390) 评论(0) 推荐(0)

SparkRDD内核

摘要：Spark内核 RDD是基础,是spark中一个基础的抽象，是不可变的，比如我们加载进的数据RDD，如果想更改其中的内容是不允许的；分区的集合，可以并行来计算；RDD类中包含了很多基础的操作，例如map filter persist,RDD的数据是加载到内存中,使用persist可将内存中的数据持久阅读全文

posted @ 2018-03-12 21:56 嘣嘣嚓阅读(208) 评论(0) 推荐(0)

Spark初识

摘要：Spark初识 spark是一个快速的统一的引擎，基于内存的运算 spark有一个高级的DAG(有向无环图)引擎，支持循环的数据流和基于内存的计算 spark支持的开发语言Java\Scala\Python\R spark提供了80多种算子操作在一个应用中可以无缝整合spark组件 spark可运阅读全文

posted @ 2018-03-12 21:52 嘣嘣嚓阅读(225) 评论(0) 推荐(0)

随笔分类 - Spark