柚子=_=

摘要： Spark Shuffle的性能调优1、Shuffle原理和运行机制回顾 2、Shuffle性能调优上面的流程中：性能问题1：Mapper端的Cache：如果Cache设置的大小不恰当，可能产生大量磁盘的访问操... 阅读全文

posted @ 2017-11-14 19:47 柚子=_= 阅读(118) 评论(0) 推荐(0)

摘要：任何系统都会有各种各样的问题，有些是系统本身设计问题，有些却是使用姿势问题。HBase也一样，在真实生产线上大家或多或少都会遇到很多问题，有些是HBase还需要完善的，有些是我们确实对它了解太少。总结起来，大家遇... 阅读全文

posted @ 2017-11-14 19:41 柚子=_= 阅读(366) 评论(0) 推荐(0)

摘要：上一篇文章主要介绍了HBase读性能优化的基本套路，本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能。和读相比，HBase写数据流程倒是显得很简单：数据先顺序写入HLog，再写入对应的缓存Mem... 阅读全文

posted @ 2017-11-14 19:38 柚子=_= 阅读(495) 评论(0) 推荐(0)

摘要：前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据... 阅读全文

posted @ 2017-11-14 19:32 柚子=_= 阅读(151) 评论(0) 推荐(0)

摘要：按照Spark应用程序中的driver分布方式不同，Spark on YARN有两种模式： yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业，每个Spark execut... 阅读全文

posted @ 2017-11-14 19:17 柚子=_= 阅读(511) 评论(0) 推荐(0)

摘要： Spark性能相关参数配置¶http://spark-config.readthedocs.io/en/latest/#概述随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spar... 阅读全文

posted @ 2017-11-14 16:01 柚子=_= 阅读(386) 评论(0) 推荐(0)

摘要： IDEA 禁止自动导入引用包取消Import包拷贝一小段代码，或者我就是不想引入拷贝来的包，我该怎么取消掉idea的自动导入import包呢？找到下面这个选项，把这个fly取消掉首页新随笔联系管理IDEA 禁止... 阅读全文

posted @ 2017-11-14 10:13 柚子=_= 阅读(1166) 评论(0) 推荐(0)

摘要： Storm 性能优化原文地址：http://www.jianshu.com/p/f645eb7944b0目录场景假设调优步骤和方法Storm 的部分特性Storm 并行度Storm 消息机制Storm UI 解... 阅读全文

posted @ 2017-11-12 14:33 柚子=_= 阅读(481) 评论(0) 推荐(0)

摘要： 1、Storm并行度相关的概念Storm集群有很多节点，按照类型分为nimbus（主节点）、supervisor（从节点），在conf/storm.yaml中配置了一个supervisor,有多个槽（superv... 阅读全文

posted @ 2017-11-12 13:58 柚子=_= 阅读(406) 评论(0) 推荐(0)

摘要： Yarn提供可插拔的调度的算法，用于解决application之间资源竞争问题. 根据当前多租户多应用类型的应用场景，我们使用FairSchedule资源调度算法，来管理我们用户提交的队列、队列资源竞争.主要涉及... 阅读全文

posted @ 2017-11-07 15:30 柚子=_= 阅读(281) 评论(0) 推荐(0)