11 2017 档案
摘要:neo4j简单学习背景最近在一些论坛或者新闻里看到了neo4j,一种擅长处理图形的数据库。 据说非常适合做一些join关系型的查询,所以抽空也看了下相关文档,给自己做个技术储备。 过程深入学习之前,先在网上找了一...
阅读全文
摘要:1.HiBench算法简介Hibench 包含9个典型的hadoop负载(micro benchmarks,hdfs benchmarks,web search bench marks,machine learn...
阅读全文
摘要:Spark 性能优化方案Spark性能测试工具•Spark性能测试基准程序Benchmark–https://github.com/intel-hadoop/HiBench•Spark性能测试与分析可视化工具–h...
阅读全文
摘要:一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more...
阅读全文
摘要:这里主要针对Mapreduce的性能调优。这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local....
阅读全文
摘要:最近在做实验,实验需要进行分区域计算,网上查了资料后发现Yarn Node Labels + Capacity-Scheduler可以实现我的需求但是当任务提交到capacity-scheduler调度器的def...
阅读全文
摘要:数据中心中的应用一般独立部署,为了保证环境隔离与方便管理,保证应用最大资源 数据中心中普遍存在如下问题:主机资源利用率低部署和扩展复杂资源隔离无法动态调整无法快速响应业务方案选型Yarn on Docker有哪...
阅读全文
摘要:搭建Hadoop Yarn on Docker一、概览Docker基于Linux Container技术整合了一堆易用的接口用于构建非常轻量级的虚拟机。Docker Container Executor(DCE)...
阅读全文
摘要:HDP平台参数调优建议根据上面介绍的相关知识,我们就可以根据我们的实际情况作出相关参数的设置,当然还需要在运行测试过程中不断检验和调整。以下是hortonworks给出的配置建议: http://docs.hor...
阅读全文
摘要:java application项目(非web项目)改进前:-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CM...
阅读全文
摘要:Spark Shuffle的性能调优1、Shuffle原理和运行机制回顾 2、Shuffle性能调优上面的流程中: 性能问题1:Mapper端的Cache:如果Cache设置的大小不恰当,可能产生大量磁盘的访问操...
阅读全文
摘要:任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇...
阅读全文
摘要:上一篇文章主要介绍了HBase读性能优化的基本套路,本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能。和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Mem...
阅读全文
摘要:前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据...
阅读全文
摘要:按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业,每个Spark execut...
阅读全文
摘要:Spark性能相关参数配置¶http://spark-config.readthedocs.io/en/latest/#概述随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spar...
阅读全文
摘要:IDEA 禁止自动导入引用包 取消Import包拷贝一小段代码,或者我就是不想引入拷贝来的包,我该怎么取消掉idea的自动导入import包呢?找到下面这个选项,把这个fly取消掉首页新随笔联系管理IDEA 禁止...
阅读全文
摘要:Storm 性能优化 原文地址:http://www.jianshu.com/p/f645eb7944b0目录场景假设调优步骤和方法Storm 的部分特性Storm 并行度Storm 消息机制Storm UI 解...
阅读全文
摘要:1、Storm并行度相关的概念Storm集群有很多节点,按照类型分为nimbus(主节点)、supervisor(从节点),在conf/storm.yaml中配置了一个supervisor,有多个槽(superv...
阅读全文
摘要:Yarn提供可插拔的调度的算法,用于解决application之间资源竞争问题. 根据当前多租户多应用类型的应用场景,我们使用FairSchedule资源调度算法,来管理我们用户提交的队列、队列资源竞争.主要涉及...
阅读全文
摘要:试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?...
阅读全文
摘要:虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。针对这个这个问题,其实在spark1.6中,已经加入了data...
阅读全文
摘要:一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByK...
阅读全文
摘要:执行spark-sql时,查询数据量超过1.7亿行,数据量大小38G,出现系统盘占用突然变高的情况检查为 /tmp 目录下,spark生成的临时目录占用了大量的磁盘空间,生成的spark临时文件超过15G了。解决...
阅读全文