2017 年 7月 3 日随笔档案 - R星月

2017年7月3日

摘要：作业调度简介设计者将资源进行不同粒度的抽象建模，然后将资源统一放入调度器，通过一定的算法进行调度，最终要达到高吞吐或者低访问延时的目的。 Spark在各种运行模式中各个角色实现的功能基本一致，只不过是在特定的资源管理器下使用略微不同的名称和调度机制。 Application调度一个Applica 阅读全文

posted @ 2017-07-03 22:06 R星月阅读(300) 评论(0) 推荐(0) 编辑

Spark运行命令示例

摘要： local单机模式：结果xshell可见：./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100stan 阅读全文

posted @ 2017-07-03 22:02 R星月阅读(453) 评论(0) 推荐(0) 编辑

sparkSQL中udf的使用

摘要：在Spark中使用sql时一些功能需要自定义方法实现，这时候就可以使用UDF功能来实现多参数支持 UDF不支持参数*的方式输入多个参数，例如String*，不过可以使用array来解决这个问题。定义udf方法，此处功能是将多个字段合并为一个字段在sql中使用在DataFrame中使用阅读全文

posted @ 2017-07-03 22:00 R星月阅读(3179) 评论(0) 推荐(0) 编辑

spark dataframe函数编程

摘要： DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组，返回dataframe集合所有的行 2、 collectAsList() 返回值是一个Java类型的数组，返回dataframe集合所有的行 3、 count() 返回一个number类型的，返回dataf 阅读全文

posted @ 2017-07-03 21:59 R星月阅读(395) 评论(0) 推荐(0) 编辑

spark dataframe操作集锦（提取前几行，合并，入库等）

摘要： Spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就阅读全文

posted @ 2017-07-03 21:58 R星月阅读(803) 评论(0) 推荐(0) 编辑

Spark-SQL之DataFrame操作大全

摘要： Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成阅读全文

posted @ 2017-07-03 21:57 R星月阅读(34197) 评论(0) 推荐(1) 编辑

RDD、DataFrame和Dataset的区别

摘要： RDD、DataFrame和Dataset是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。 RDD和DataFrame RDD-DataFrame RDD-DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，阅读全文

posted @ 2017-07-03 21:56 R星月阅读(636) 评论(0) 推荐(0) 编辑

Spark的基本概念及工作原理

摘要： Spark作业的基本概念 -Application：用户自定义的Spark程序，用户提交后，Spark为App分配资源将程序转换并执行。 -Driver Program：运行Application的main()函数并且创建SparkContext。 -RDD DAG：当RDD遇到Action算子，将阅读全文

posted @ 2017-07-03 21:55 R星月阅读(257) 评论(0) 推荐(0) 编辑

在Spark集群中，集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系

摘要：梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体阅读全文

posted @ 2017-07-03 21:54 R星月阅读(317) 评论(0) 推荐(0) 编辑

Spark性能优化——和shuffle搏斗

摘要： Spark的性能分析和调优很有意思，今天再写一篇。主要话题是shuffle，当然也牵涉一些其他代码上的小把戏。以前写过一篇文章，比较了几种不同场景的性能优化，包括portal的性能优化，web service的性能优化，还有Spark job的性能优化。Spark的性能优化有一些特殊的地方，比如实阅读全文

posted @ 2017-07-03 21:49 R星月阅读(680) 评论(0) 推荐(0) 编辑

Spark性能调优

摘要：下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们阅读全文

posted @ 2017-07-03 21:48 R星月阅读(227) 评论(0) 推荐(0) 编辑

Spark源码分析之-Storage模块

摘要：原文链接：http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/ Background 前段时间琐事颇多，一直没有时间整理自己的博客，Spark源码分析写到一半也搁置了。之前介绍了deploy和schedu 阅读全文

posted @ 2017-07-03 21:47 R星月阅读(493) 评论(0) 推荐(0) 编辑

Spark Job具体的物理执行

摘要：即使采用pipeline的方式，函数f对依赖的RDD中的数据集合的操作也会有两种方式： 1.f(record)，f作用于集合的每一条记录，每次只作用于一条记录 2.f(records)，f一次性作用于集合的全部数据； Spark采用的是第一种方式，因为： 1.无需等待，可以最大化的使用集群的计算资源阅读全文

posted @ 2017-07-03 21:45 R星月阅读(177) 评论(0) 推荐(0) 编辑

详细探究Spark的shuffle实现

摘要： Background 在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的阅读全文

posted @ 2017-07-03 21:44 R星月阅读(1669) 评论(1) 推荐(0) 编辑

Spark 配置整理

摘要： Spark 的配置有很多，这里一方面总结一下官方文档中的内容，一方面将网上查到的资料中用到的针对特定问题的配置整理一下。先看一下官网的配置：http://spark.apache.org/docs/latest/configuration.html spark 配置可分为三层： spark pro 阅读全文

posted @ 2017-07-03 21:43 R星月阅读(284) 评论(0) 推荐(0) 编辑

spark

摘要： Transformation 和Action本质区别： Transformations是RDD到RDD; Actions是RDD到result。 Actions算子触发Spark job。 Spark groupbykey和cogroup使用示例 groupByKeygroupByKey([numT 阅读全文

posted @ 2017-07-03 21:41 R星月阅读(429) 评论(0) 推荐(0) 编辑

Spark集群任务提交

摘要： 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone—Spark自带的一种集群管理方式，易于构建集群。 Apache Mesos—通用的集群管理，可以在其上运行Hadoop MapReduce和一些服务应用。 Hadoop YARN—Hadoop2中的资源管理器。 Tip1: 阅读全文

posted @ 2017-07-03 21:28 R星月阅读(338) 评论(0) 推荐(0) 编辑

Spark Job调优(Part 2)

摘要：原文链接：https://wongxingjun.github.io/2016/05/11/Spark-Job%E8%B0%83%E4%BC%98-Part-2/ 这篇文章将会完成Part 1中留下的部分，我会尽力介绍更多的你关心的能加速Spark程序的东西。特别是你将会学习资源调优或者配置Spar 阅读全文

posted @ 2017-07-03 21:22 R星月阅读(1018) 评论(0) 推荐(0) 编辑

Spark Job调优(Part 1)

摘要：原文链接：https://wongxingjun.github.io/2016/05/11/Spark-Job%E8%B0%83%E4%BC%98-Part-1/ Spark应用的执行效率是所有程序员需要关心的问题，单纯从代码层面去了解和优化明显是不够的，本文介绍Spark的底层执行模式，并给出了一阅读全文

posted @ 2017-07-03 21:21 R星月阅读(711) 评论(0) 推荐(0) 编辑

Spark性能调优之道——解决Spark数据倾斜（Data Skew）的N种姿势

摘要：原文：http://blog.csdn.net/tanglizhe1105/article/details/51050974 背景很多使用Spark的朋友很想知道rdd里的元素是怎么存储的，它们占用多少存储空间？本次我们将以实验的方式进行测试，展示rdd存储开销性能。关于rdd的元素怎么存储，S 阅读全文

posted @ 2017-07-03 21:19 R星月阅读(276) 评论(0) 推荐(0) 编辑

R星月

关注数据挖掘，机器学习
http://www.cnblogs.com/rxingye

公告

R星月

关注 数据挖掘，机器学习 http://www.cnblogs.com/rxingye

公告

关注数据挖掘，机器学习
http://www.cnblogs.com/rxingye