摘要: 作业调度简介 设计者将资源进行不同粒度的抽象建模,然后将资源统一放入调度器,通过一定的算法进行调度,最终要达到高吞吐或者低访问延时的目的。 Spark在各种运行模式中各个角色实现的功能基本一致,只不过是在特定的资源管理器下使用略微不同的名称和调度机制。 Application调度 一个Applica 阅读全文
posted @ 2017-07-03 22:06 R星月 阅读(299) 评论(0) 推荐(0) 编辑
摘要: local单机模式:结果xshell可见:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100stan 阅读全文
posted @ 2017-07-03 22:02 R星月 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 在Spark中使用sql时一些功能需要自定义方法实现,这时候就可以使用UDF功能来实现 多参数支持 UDF不支持参数*的方式输入多个参数,例如String*,不过可以使用array来解决这个问题。 定义udf方法,此处功能是将多个字段合并为一个字段 在sql中使用 在DataFrame中使用 阅读全文
posted @ 2017-07-03 22:00 R星月 阅读(3175) 评论(0) 推荐(0) 编辑
摘要: DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行 3、 count() 返回一个number类型的,返回dataf 阅读全文
posted @ 2017-07-03 21:59 R星月 阅读(395) 评论(0) 推荐(0) 编辑
摘要: Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 阅读全文
posted @ 2017-07-03 21:58 R星月 阅读(803) 评论(0) 推荐(0) 编辑
摘要: Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。 一、DataFrame对象的生成 阅读全文
posted @ 2017-07-03 21:57 R星月 阅读(34188) 评论(0) 推荐(1) 编辑
摘要: RDD、DataFrame和Dataset是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD-DataFrame RDD-DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数, 阅读全文
posted @ 2017-07-03 21:56 R星月 阅读(633) 评论(0) 推荐(0) 编辑
摘要: Spark作业的基本概念 -Application:用户自定义的Spark程序,用户提交后,Spark为App分配资源将程序转换并执行。 -Driver Program:运行Application的main()函数并且创建SparkContext。 -RDD DAG:当RDD遇到Action算子,将 阅读全文
posted @ 2017-07-03 21:55 R星月 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体 阅读全文
posted @ 2017-07-03 21:54 R星月 阅读(304) 评论(0) 推荐(0) 编辑
摘要: Spark的性能分析和调优很有意思,今天再写一篇。主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。 以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如实 阅读全文
posted @ 2017-07-03 21:49 R星月 阅读(678) 评论(0) 推荐(0) 编辑
摘要: 下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们 阅读全文
posted @ 2017-07-03 21:48 R星月 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/ Background 前段时间琐事颇多,一直没有时间整理自己的博客,Spark源码分析写到一半也搁置了。之前介绍了deploy和schedu 阅读全文
posted @ 2017-07-03 21:47 R星月 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式: 1.f(record),f作用于集合的每一条记录,每次只作用于一条记录 2.f(records),f一次性作用于集合的全部数据; Spark采用的是第一种方式,因为: 1.无需等待,可以最大化的使用集群的计算资源 阅读全文
posted @ 2017-07-03 21:45 R星月 阅读(177) 评论(0) 推荐(0) 编辑
摘要: Background 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的 阅读全文
posted @ 2017-07-03 21:44 R星月 阅读(1669) 评论(1) 推荐(0) 编辑
摘要: Spark 的配置有很多,这里一方面总结一下官方文档中的内容,一方面将网上查到的资料中用到的针对特定问题的配置整理一下。 先看一下官网的配置:http://spark.apache.org/docs/latest/configuration.html spark 配置可分为三层: spark pro 阅读全文
posted @ 2017-07-03 21:43 R星月 阅读(281) 评论(0) 推荐(0) 编辑
摘要: Transformation 和Action本质区别: Transformations是RDD到RDD; Actions是RDD到result。 Actions算子触发Spark job。 Spark groupbykey和cogroup使用示例 groupByKeygroupByKey([numT 阅读全文
posted @ 2017-07-03 21:41 R星月 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone—Spark自带的一种集群管理方式,易于构建集群。 Apache Mesos—通用的集群管理,可以在其上运行Hadoop MapReduce和一些服务应用。 Hadoop YARN—Hadoop2中的资源管理器。 Tip1: 阅读全文
posted @ 2017-07-03 21:28 R星月 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 原文链接:https://wongxingjun.github.io/2016/05/11/Spark-Job%E8%B0%83%E4%BC%98-Part-2/ 这篇文章将会完成Part 1中留下的部分,我会尽力介绍更多的你关心的能加速Spark程序的东西。特别是你将会学习资源调优或者配置Spar 阅读全文
posted @ 2017-07-03 21:22 R星月 阅读(1018) 评论(0) 推荐(0) 编辑
摘要: 原文链接:https://wongxingjun.github.io/2016/05/11/Spark-Job%E8%B0%83%E4%BC%98-Part-1/ Spark应用的执行效率是所有程序员需要关心的问题,单纯从代码层面去了解和优化明显是不够的,本文介绍Spark的底层执行模式,并给出了一 阅读全文
posted @ 2017-07-03 21:21 R星月 阅读(711) 评论(0) 推荐(0) 编辑
摘要: 原文:http://blog.csdn.net/tanglizhe1105/article/details/51050974 背景 很多使用Spark的朋友很想知道rdd里的元素是怎么存储的,它们占用多少存储空间?本次我们将以实验的方式进行测试,展示rdd存储开销性能。 关于rdd的元素怎么存储,S 阅读全文
posted @ 2017-07-03 21:19 R星月 阅读(270) 评论(0) 推荐(0) 编辑
作者:lishaoying 出处:http://www.cnblogs.com/rxingyue 说明:本文是自己学习编程的一个历程,版权归作者和博客园共有,欢迎转载,请标明原文连接,如有问题联系我 Email:983068303@qq.com,非常感谢。

作者:lishaoying
出处:http://www.cnblogs.com/rxingyue
说明:本文是自己学习编程的一个历程,版权归作者和博客园共有,欢迎转载,请标明原文连接,如有问题联系我,非常感谢。