摘要: 试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?... 阅读全文
posted @ 2017-11-07 15:28 柚子=_= 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。针对这个这个问题,其实在spark1.6中,已经加入了data... 阅读全文
posted @ 2017-11-07 15:19 柚子=_= 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByK... 阅读全文
posted @ 2017-11-07 15:18 柚子=_= 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-11-07 15:16 柚子=_= 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 执行spark-sql时,查询数据量超过1.7亿行,数据量大小38G,出现系统盘占用突然变高的情况检查为 /tmp 目录下,spark生成的临时目录占用了大量的磁盘空间,生成的spark临时文件超过15G了。解决... 阅读全文
posted @ 2017-11-03 18:08 柚子=_= 阅读(2225) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-11-03 18:01 柚子=_= 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 二. 查询性能(Query Perofrmance)王道是什么?routing,routing,还是 routing。我们为了提高查询速度,减少慢查询,结合自己的业务实践,使用多个集群,每个集群使用不同的 rou... 阅读全文
posted @ 2017-10-28 15:18 柚子=_= 阅读(143) 评论(0) 推荐(0) 编辑
摘要: ElasticSearch 优化总结目录ElasticSearch 优化总结目录OSOS 参数说明OS 参数配置ESLinux Release: CentOS release 6.4 ES Version: 2.... 阅读全文
posted @ 2017-10-28 15:09 柚子=_= 阅读(408) 评论(0) 推荐(0) 编辑
摘要: elasticsearch 性能调优所有的修改都可以在elasticsearch.yml里面修改,也可以通过api来修改。推荐用api比较灵活1.不同分片之间的数据同步是一个很大的花费,默认是1s同步,如果我们不... 阅读全文
posted @ 2017-10-28 09:40 柚子=_= 阅读(1055) 评论(0) 推荐(0) 编辑
摘要: 有特点的流处理引擎NiFi流处理不止有flink、storm、spark streaming,今天介绍一个大家不一定用得很多,但是却很有特点的东西,NiFi。前面写了flink的文章,其实流处理不止有flink、... 阅读全文
posted @ 2017-10-24 19:26 柚子=_= 阅读(1506) 评论(0) 推荐(0) 编辑