随笔分类 - Elasticsearch
摘要:线上实战问题 问题 1:想要请问一下,我这边需求是每分钟利用 sparksteaming 插入按天的索引 150 万条数据。一般情况下还好,索引 7 个分片,1 副本,但是偶尔会出现延迟很高的情况。比如:一般情况下 1 分钟插入 150 万能正常插入,可能突然就出现了需要 5 分钟才能插入成功,然后
阅读全文
摘要:前言 Elastic自身设计了集群分片的负载平衡机制,当有新数据节点加入集群或者离开集群,集群会自动平衡分片的负载分布。 需求背景 公司原有大数据平台基于公有云构建,由于种种原因,现在需要迁移到自建机房,Elasticsearch集群承担了大数据平台主要的对外查询需求,也有部分实时计算需求基于Ela
阅读全文
摘要:典型问题之一:Elasticsearch集群的磁盘被打爆 造成磁盘被打爆有以下几种原因: 索引泛滥,索引接入无流程管控; 索引无生命周期管理; 索引分片数量不合理,单分片过大; 日志类索引未按天等细粒度划分,单索引过大; 多集群复用同一服务器节点; 磁盘容量大小不一。 这些问题比较基础,其实也反映出
阅读全文
摘要:前言 Elastic自身设计了集群分片的负载平衡机制,当有新数据节点加入集群或者离开集群,集群会自动平衡分片的负载分布。 需求背景 公司原有大数据平台基于公有云构建,由于种种原因,现在需要迁移到自建机房,Elasticsearch集群承担了大数据平台主要的对外查询需求,也有部分实时计算需求基于Ela
阅读全文
摘要:简介 ElasticSearch是一款基于 Apache Lucene的开源搜索引擎产品,之后成了独立的商业公司,继而发布了ELK等一系列产品,特点是开源、分布式、准实时,标准的RESTFul接口等。 ElasticSearch可以单机部署,也可以集群部署。ES的分布式属性,可以轻松的处理超过单机负
阅读全文
摘要:ElasticSearch一看就懂之分词器edge_ngram和ngram的区别1 year agoedge_ngram和ngram是ElasticSearch自带的两个分词器,一般设置索引映射的时候都会用到,设置完步长之后,就可以直接给解析器analyzer的tokenizer赋值使用。这里,我们
阅读全文
摘要:文章目录 1. Analysis 简介 2. index analyzer VS search analyzer 3. Analyze API 4. Ngram 5. Ngram Tokenizer 6. Ngram Token Filter 7. Edge Ngram 1. Analysis 简介
阅读全文
摘要:优化Refresh时间 ES在写入数据的时候,采用延迟写入的策略,数据会先写到内存中,当超过默认时间1秒 (index.refresh_interval,默认)会进行一次写入磁盘操作。如果对实时搜索要求不高的情况下,可以适当地将此值设置的高点,可以有效地减少 segment (一个segment是一
阅读全文
摘要:Doc Values 出现背景 https://www.elastic.co/guide/cn/elasticsearch/guide/current/docvalues-intro.htmlhttps://www.elastic.co/guide/cn/elasticsearch/guide/cu
阅读全文