10 2017 档案
摘要:二. 查询性能(Query Perofrmance)王道是什么?routing,routing,还是 routing。我们为了提高查询速度,减少慢查询,结合自己的业务实践,使用多个集群,每个集群使用不同的 rou...
阅读全文
摘要:ElasticSearch 优化总结目录ElasticSearch 优化总结目录OSOS 参数说明OS 参数配置ESLinux Release: CentOS release 6.4 ES Version: 2....
阅读全文
摘要:elasticsearch 性能调优所有的修改都可以在elasticsearch.yml里面修改,也可以通过api来修改。推荐用api比较灵活1.不同分片之间的数据同步是一个很大的花费,默认是1s同步,如果我们不...
阅读全文
摘要:有特点的流处理引擎NiFi流处理不止有flink、storm、spark streaming,今天介绍一个大家不一定用得很多,但是却很有特点的东西,NiFi。前面写了flink的文章,其实流处理不止有flink、...
阅读全文
摘要:实验环境: zookeeper-3.4.6 Spark:1.6.0 简介: 本篇博客将从以下几点组织文章: 一:Spark 构建高可用HA架构 二:动手实战构建高可用HA 三:提交程序测试HA一:Spark 构建...
阅读全文
摘要:1.Storm 和 SparkStreaming区别Storm 纯实时的流式处理,来一条数据就立即进行处理SparkStreaming微批处理,每次处理的都是一批非常小的数...
阅读全文
摘要:《倾情大奉送--Spark入门实战系列》 1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Sp...
阅读全文
摘要:Spark性能调优高级篇 分类:spark平台学习(2) 目录(?)[+]前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇...
阅读全文
摘要:那些年我们在spark SQL上踩过的坑1.高并发情况下的内存泄露的具体表现很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存...
阅读全文
摘要:性能优化参数 在spark中,Spark SQL性能调优只要是通过下面的一些选项进行优化的:1 spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高大型查询的性能,但是如果进行...
阅读全文
摘要:Spark Sql性能测试及调优目录(?)[+]内存不足时group by操作失败。正常应该速度变慢,而不是失败,因为还有磁盘可用错误日志:Task:java.io.IOException: Filesystem...
阅读全文
摘要:机器学习与深度学习资料机器学习《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林...
阅读全文
摘要:java application项目(非web项目)改进前:-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CM...
阅读全文
摘要:Spark JVM的OOM和Stack Overflow问题1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式Spark on...
阅读全文
摘要:Spark SQL UDF和UDAF/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFu...
阅读全文
摘要:一、Spark SQL下的Parquet使用最佳实践1)过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式:a)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL)-> HDFS Parquet -> Spark SQL/Impala -> ...
阅读全文