2017 年 10月随笔档案 - 柚子=_=

ElasticSearch 优化实战

摘要：二. 查询性能（Query Perofrmance）王道是什么？routing，routing，还是 routing。我们为了提高查询速度，减少慢查询，结合自己的业务实践，使用多个集群，每个集群使用不同的 rou... 阅读全文

posted @ 2017-10-28 15:18 柚子=_= 阅读(147) 评论(0) 推荐(0) 编辑

ElasticSearch 优化总结

摘要：ElasticSearch 优化总结目录ElasticSearch 优化总结目录OSOS 参数说明OS 参数配置ESLinux Release: CentOS release 6.4 ES Version: 2.... 阅读全文

posted @ 2017-10-28 15:09 柚子=_= 阅读(414) 评论(0) 推荐(0) 编辑

elasticsearch调优技巧

摘要：elasticsearch 性能调优所有的修改都可以在elasticsearch.yml里面修改，也可以通过api来修改。推荐用api比较灵活1.不同分片之间的数据同步是一个很大的花费，默认是1s同步，如果我们不... 阅读全文

posted @ 2017-10-28 09:40 柚子=_= 阅读(1068) 评论(0) 推荐(0) 编辑

NiFi流处理引擎

摘要：有特点的流处理引擎NiFi流处理不止有flink、storm、spark streaming，今天介绍一个大家不一定用得很多，但是却很有特点的东西，NiFi。前面写了flink的文章，其实流处理不止有flink、... 阅读全文

posted @ 2017-10-24 19:26 柚子=_= 阅读(1526) 评论(0) 推荐(0) 编辑

spark driver HA

摘要：实验环境： zookeeper-3.4.6 Spark：1.6.0 简介：本篇博客将从以下几点组织文章：一：Spark 构建高可用HA架构二：动手实战构建高可用HA 三：提交程序测试HA一：Spark 构建... 阅读全文

posted @ 2017-10-24 10:16 柚子=_= 阅读(314) 评论(0) 推荐(0) 编辑

SparkStreaming Kafka基本概念

摘要：1.Storm 和 SparkStreaming区别Storm 纯实时的流式处理，来一条数据就立即进行处理SparkStreaming微批处理，每次处理的都是一批非常小的数... 阅读全文

posted @ 2017-10-24 09:48 柚子=_= 阅读(280) 评论(0) 推荐(0) 编辑

最全spark基础知识

摘要：《倾情大奉送--Spark入门实战系列》 1、 Spark运行架构1.1 术语定义lApplication：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Sp... 阅读全文

posted @ 2017-10-23 20:14 柚子=_= 阅读(377) 评论(0) 推荐(0) 编辑

spark性能优化高级篇

摘要：Spark性能调优高级篇分类：spark平台学习（2）目录(?)[+]前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇... 阅读全文

posted @ 2017-10-23 19:33 柚子=_= 阅读(413) 评论(0) 推荐(0) 编辑

spark SQL上踩过的坑

摘要：那些年我们在spark SQL上踩过的坑1.高并发情况下的内存泄露的具体表现很遗憾，spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存... 阅读全文

posted @ 2017-10-21 19:58 柚子=_= 阅读(1361) 评论(0) 推荐(0) 编辑

spark-sql调优

摘要：性能优化参数在spark中，Spark SQL性能调优只要是通过下面的一些选项进行优化的：1 spark.sql.codegen 默认值为false，当它设置为true时，Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢？它可以提高大型查询的性能，但是如果进行... 阅读全文

posted @ 2017-10-21 19:46 柚子=_= 阅读(1182) 评论(0) 推荐(0) 编辑

Spark Sql性能测试

摘要：Spark Sql性能测试及调优目录(?)[+]内存不足时group by操作失败。正常应该速度变慢，而不是失败，因为还有磁盘可用错误日志：Task：java.io.IOException: Filesystem... 阅读全文

posted @ 2017-10-21 19:39 柚子=_= 阅读(343) 评论(0) 推荐(0) 编辑

机器学习与深度学习资料

摘要：机器学习与深度学习资料机器学习《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林... 阅读全文

posted @ 2017-10-21 19:18 柚子=_= 阅读(479) 评论(0) 推荐(0) 编辑

JVM调优实战

摘要：java application项目（非web项目）改进前：-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CM... 阅读全文

posted @ 2017-10-18 19:36 柚子=_= 阅读(127) 评论(0) 推荐(0) 编辑

Spark on Yarn下JVM的OOM问题及解决方式

摘要：Spark JVM的OOM和Stack Overflow问题1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式Spark on... 阅读全文

posted @ 2017-10-18 17:59 柚子=_= 阅读(403) 评论(0) 推荐(0) 编辑

Spark SQL UDF和UDAF示例

摘要：Spark SQL UDF和UDAF/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFu... 阅读全文

posted @ 2017-10-18 17:47 柚子=_= 阅读(167) 评论(0) 推荐(0) 编辑

Spark Parquet使用

摘要：一、Spark SQL下的Parquet使用最佳实践1）过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式：a）Data Source -> HDFS -> MR/Hive/Spark（相当于ETL）-> HDFS Parquet -> Spark SQL/Impala -> ... 阅读全文

posted @ 2017-10-18 15:09 柚子=_= 阅读(1041) 评论(0) 推荐(0) 编辑

柚子=_=

10 2017 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论