随笔分类 -  Spark

Spark-作业执行流程概述
摘要:Spark-作业执行流程概述 spark的作业和任务带哦度系统是其核心,它能够有效地进行调度根本原因是对任务划分DAG和容错,使得它对底层到顶层的各个模块之间的调用和处理显的游刃有余。 相关术语 作业(job):RDD中由行动操作所生成的一个或多个调度阶段 调度阶段(stage):每个作业会因为RD 阅读全文

posted @ 2020-04-06 19:38 嘣嘣嚓 阅读(1176) 评论(0) 推荐(0) 编辑

Kafka+SparkStreaming+Zookeeper(ZK存储Offset,解决checkpoint问题)
摘要:创建一个topic 查看topic列表 producer 代码如下 Streaming代码如下 出现的问题 使用simpleConsumer时报错 再次尝试即可. 阅读全文

posted @ 2018-08-14 16:42 嘣嘣嚓 阅读(726) 评论(0) 推荐(0) 编辑

Spark-运行时架构
摘要:Spark运行时架构 在分布式环境下,Spark集群采用的时主/从结构。在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver),与之对应的工作节点被称为执行器节点(executor).驱动器节点可以和大量的执行器节点进行通信,它们也都作为 阅读全文

posted @ 2018-07-08 22:37 嘣嘣嚓 阅读(267) 评论(0) 推荐(0) 编辑

Spark常用算子-KeyValue数据类型的算子
摘要:package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import org.apache.spark.Partitioner; import org.apache.spark.SparkConf; import org.apache.spark.api.java.J... 阅读全文

posted @ 2018-07-02 16:47 嘣嘣嚓 阅读(404) 评论(0) 推荐(0) 编辑

Spark常用算子-value数据类型的算子
摘要:package com.test; import java.util.ArrayList; import java.util.Arrays; import java.util.Iterator; import java.util.List; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.s... 阅读全文

posted @ 2018-07-02 16:46 嘣嘣嚓 阅读(407) 评论(0) 推荐(0) 编辑

Spark操作算子本质-RDD的容错
摘要:Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群中只能有一个资源调度,如果有两个资源调度的话,master和resourcemanager之间是不通 阅读全文

posted @ 2018-03-12 22:07 嘣嘣嚓 阅读(283) 评论(0) 推荐(0) 编辑

Spark集群搭建(local、standalone、yarn)
摘要:Spark集群搭建 local本地模式 下载安装包解压即可使用,测试(2.2版本)./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./examples/jars/spark-examples 阅读全文

posted @ 2018-03-12 22:03 嘣嘣嚓 阅读(508) 评论(0) 推荐(0) 编辑

Spark持久化策略
摘要:spark持久化策略_缓存优化persist、cache都是持久化到内存缓存策略 StorageLevel_useDisk:是否使用磁盘_useMemory:是否使用内存_useOffHeap:不用堆内存,找tackyon_deserialized:不序列化(序列化可理解为压缩,节省内存磁盘空间,但 阅读全文

posted @ 2018-03-12 21:59 嘣嘣嚓 阅读(358) 评论(0) 推荐(0) 编辑

SparkRDD内核
摘要:Spark内核 RDD是基础,是spark中一个基础的抽象,是不可变的,比如我们加载进的数据RDD,如果想更改其中的内容是不允许的;分区的集合,可以并行来计算;RDD类中包含了很多基础的操作,例如map filter persist,RDD的数据是加载到内存中,使用persist可将内存中的数据持久 阅读全文

posted @ 2018-03-12 21:56 嘣嘣嚓 阅读(192) 评论(0) 推荐(0) 编辑

Spark初识
摘要:Spark初识 spark是一个快速的统一的引擎,基于内存的运算 spark有一个高级的DAG(有向无环图)引擎,支持循环的数据流和基于内存的计算 spark支持的开发语言Java\Scala\Python\R spark提供了80多种算子操作 在一个应用中可以无缝整合spark组件 spark可运 阅读全文

posted @ 2018-03-12 21:52 嘣嘣嚓 阅读(209) 评论(0) 推荐(0) 编辑

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示