R星月

2017年7月3日

摘要：下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们阅读全文

posted @ 2017-07-03 21:48 R星月阅读(227) 评论(0) 推荐(0) 编辑

Spark源码分析之-Storage模块

摘要：原文链接：http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/ Background 前段时间琐事颇多，一直没有时间整理自己的博客，Spark源码分析写到一半也搁置了。之前介绍了deploy和schedu 阅读全文

posted @ 2017-07-03 21:47 R星月阅读(483) 评论(0) 推荐(0) 编辑

Spark Job具体的物理执行

摘要：即使采用pipeline的方式，函数f对依赖的RDD中的数据集合的操作也会有两种方式： 1.f(record)，f作用于集合的每一条记录，每次只作用于一条记录 2.f(records)，f一次性作用于集合的全部数据； Spark采用的是第一种方式，因为： 1.无需等待，可以最大化的使用集群的计算资源阅读全文

posted @ 2017-07-03 21:45 R星月阅读(177) 评论(0) 推荐(0) 编辑

详细探究Spark的shuffle实现

摘要： Background 在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的阅读全文

posted @ 2017-07-03 21:44 R星月阅读(1669) 评论(1) 推荐(0) 编辑

Spark 配置整理

摘要： Spark 的配置有很多，这里一方面总结一下官方文档中的内容，一方面将网上查到的资料中用到的针对特定问题的配置整理一下。先看一下官网的配置：http://spark.apache.org/docs/latest/configuration.html spark 配置可分为三层： spark pro 阅读全文

posted @ 2017-07-03 21:43 R星月阅读(278) 评论(0) 推荐(0) 编辑

spark

摘要： Transformation 和Action本质区别： Transformations是RDD到RDD; Actions是RDD到result。 Actions算子触发Spark job。 Spark groupbykey和cogroup使用示例 groupByKeygroupByKey([numT 阅读全文

posted @ 2017-07-03 21:41 R星月阅读(429) 评论(0) 推荐(0) 编辑

Spark集群任务提交

摘要： 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone—Spark自带的一种集群管理方式，易于构建集群。 Apache Mesos—通用的集群管理，可以在其上运行Hadoop MapReduce和一些服务应用。 Hadoop YARN—Hadoop2中的资源管理器。 Tip1: 阅读全文

posted @ 2017-07-03 21:28 R星月阅读(337) 评论(0) 推荐(0) 编辑

Spark Job调优(Part 2)

摘要：原文链接：https://wongxingjun.github.io/2016/05/11/Spark-Job%E8%B0%83%E4%BC%98-Part-2/ 这篇文章将会完成Part 1中留下的部分，我会尽力介绍更多的你关心的能加速Spark程序的东西。特别是你将会学习资源调优或者配置Spar 阅读全文

posted @ 2017-07-03 21:22 R星月阅读(1018) 评论(0) 推荐(0) 编辑

Spark Job调优(Part 1)

摘要：原文链接：https://wongxingjun.github.io/2016/05/11/Spark-Job%E8%B0%83%E4%BC%98-Part-1/ Spark应用的执行效率是所有程序员需要关心的问题，单纯从代码层面去了解和优化明显是不够的，本文介绍Spark的底层执行模式，并给出了一阅读全文

posted @ 2017-07-03 21:21 R星月阅读(711) 评论(0) 推荐(0) 编辑

Spark性能调优之道——解决Spark数据倾斜（Data Skew）的N种姿势

摘要：原文：http://blog.csdn.net/tanglizhe1105/article/details/51050974 背景很多使用Spark的朋友很想知道rdd里的元素是怎么存储的，它们占用多少存储空间？本次我们将以实验的方式进行测试，展示rdd存储开销性能。关于rdd的元素怎么存储，S 阅读全文

posted @ 2017-07-03 21:19 R星月阅读(270) 评论(0) 推荐(0) 编辑

关注数据挖掘，机器学习
http://www.cnblogs.com/rxingye

公告

R星月

关注 数据挖掘，机器学习 http://www.cnblogs.com/rxingye

公告

关注数据挖掘，机器学习
http://www.cnblogs.com/rxingye