随笔分类 - Spark 概念学习系列
本人学习的部分经验之谈
摘要:不多说,直接上干货! 请移步 Spark on YARN简介与运行wordcount(master、slave1和slave2)(博主推荐) Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master、
阅读全文
摘要:不多说,直接上干货! 请移步 Spark standalone简介与运行wordcount(master、slave1和slave2) Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master、slave1和slave2)
阅读全文
摘要:不多说,直接上干货! Spark任务调度 DAGScheduler 构建Stage—碰到shuffle就split 记录哪个RDD 或者Stage 输出被物化 重新提交shuffle 输出丢失的stage 将Taskset 传给底层调度器 本地性策略 preferredLocations(p) Ta
阅读全文
摘要:不多说,直接上干货! Spark基本运行流程 Application program的组成 Job : 包含多个Task 组成的并行计算,跟Spark action对应。 Stage : Job 的调度单位,对应于TaskSet 。 TaskSet :一组关联的、相互之间没有shuffle 依赖关系
阅读全文
摘要:不多说,直接上干货! Spark编程模型几大要素 Driver Program 输入-Transformation-Action 缓存 共享变量
阅读全文
摘要:为什么要提出这个问题? spark跑YARN模式或Client模式提交任务不成功(application state: ACCEPTED) 然后执行 参考 手工释放linux内存——/proc/sys/vm/drop_cache http://www.linuxidc.com/Linux/2010-
阅读全文
摘要:不多说,直接上干货! Spark 同时支持Scala、Python、Java 三种应用程序API编程接口和编程方式, 考虑到大数据处理的特性,一般会优先使用Scala进行编程,其次是Python,最后才是Java。 无论使用Scala、Python还是Java编程程序都需要遵循Spark 编程模型,
阅读全文
摘要:Spark存储管理机制 概要 01 存储管理概述 02 RDD持久化 03 Shuffle数据存储 04 广播变量与累加器 01 存储管理概述 思考: RDD,我们可以直接使用而无须关心它的实现细节,RDD是Spark的基础,但是有个问题大家也许会比较关心:RDD所操作的数据究竟在哪里?它是如何存储
阅读全文
摘要:不多说,直接上干货! spark-submit在哪个位置 打包Spark application 将Spark application打成assemblyed jar。我们都知道,其实我们写好的一个Spark application,它除了spark本身的jar包和hdfs的jar包之外,它还有第三
阅读全文
摘要:无论用YARN cluster和YARN client来跑,均会出现如下问题。 解决思路 第一种解决版本:首先想到是集群中内存资源不足,可以检查下每台机器是否有足够剩余内存( free -g);也可能是其他已经提交的Spark应用占了大部分资源; 第二种解决办法:如果1>正常,我们可以看看YARN集
阅读全文
摘要:REPL Read-Eval-Print-Loop,即交互式shell,以交互式方式来编程 Spark REPL $SPARK_HOME/bin/spark-shell(scala) $SPARK_HOME/bin/pyspark(python) 其他 Spark shell Spark的scala
阅读全文
摘要:摘要 在Spark中,有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上,通常Yarn-cluster适用于生产环境,而Yarn-Cluster更适用于交互,调试模式,以下是它们的区别 Spark插拨式资源管理 Spark支持Yarn,Mesos,Standalone三种
阅读全文
摘要:不多说,直接上干货! Spark Standalone的几种提交方式 别忘了先启动spark集群!!! spark-shell用于调试,spark-submit用于生产。 1.spark-shell client 2.spark-submit cluster Spark on YARN的几种提交方式
阅读全文
摘要:不多说,直接上干货! 目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统
阅读全文
摘要:福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiuyuege 不多说,直接上干货! 从
阅读全文
摘要:福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiuyuege 其实啊,将spark的压
阅读全文
摘要:Spark本身是基于内存计算的架构,数据的存储也主要分为内存和磁盘两个路径。Spark本身则根据存储位置、是否可序列化和副本数目这几个要素将数据存储分为多种存储级别。此外还可选择使用Tachyon来管理内存数据。 为了适应迭代计算,Spark将经常被重要的数据缓存到内存中以提升数据读取速度,当内存容
阅读全文
摘要:打好基础,别小瞧它! spark的运行模式多种多样,在单机上既可以本地模式运行,也可以伪分布模式运行。而当以分布式的方式在集群中运行时。底层的资源调度可以使用Mesos或者Yarn,也可使用spark自带的Standalone模式。 1、Application : Application的概念和Ha
阅读全文
摘要:原博文出自于: 感谢! Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案: 基于文件系统的单点恢复(Single-Node Reco
阅读全文
摘要:原博文出自于: http://sanwen.net/a/gqkotbo.html 感谢! 来源:数盟 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业
阅读全文