随笔分类 -  Elasticsearch

摘要:线上实战问题 问题 1:想要请问一下,我这边需求是每分钟利用 sparksteaming 插入按天的索引 150 万条数据。一般情况下还好,索引 7 个分片,1 副本,但是偶尔会出现延迟很高的情况。比如:一般情况下 1 分钟插入 150 万能正常插入,可能突然就出现了需要 5 分钟才能插入成功,然后 阅读全文
posted @ 2021-06-06 17:37 ppjj 阅读(637) 评论(0) 推荐(0) 编辑
摘要:前言 Elastic自身设计了集群分片的负载平衡机制,当有新数据节点加入集群或者离开集群,集群会自动平衡分片的负载分布。 需求背景 公司原有大数据平台基于公有云构建,由于种种原因,现在需要迁移到自建机房,Elasticsearch集群承担了大数据平台主要的对外查询需求,也有部分实时计算需求基于Ela 阅读全文
posted @ 2021-05-16 17:11 ppjj 阅读(441) 评论(0) 推荐(0) 编辑
摘要:典型问题之一:Elasticsearch集群的磁盘被打爆 造成磁盘被打爆有以下几种原因: 索引泛滥,索引接入无流程管控; 索引无生命周期管理; 索引分片数量不合理,单分片过大; 日志类索引未按天等细粒度划分,单索引过大; 多集群复用同一服务器节点; 磁盘容量大小不一。 这些问题比较基础,其实也反映出 阅读全文
posted @ 2021-05-16 17:08 ppjj 阅读(1441) 评论(0) 推荐(0) 编辑
摘要:前言 Elastic自身设计了集群分片的负载平衡机制,当有新数据节点加入集群或者离开集群,集群会自动平衡分片的负载分布。 需求背景 公司原有大数据平台基于公有云构建,由于种种原因,现在需要迁移到自建机房,Elasticsearch集群承担了大数据平台主要的对外查询需求,也有部分实时计算需求基于Ela 阅读全文
posted @ 2021-05-09 22:07 ppjj 阅读(353) 评论(0) 推荐(0) 编辑
摘要:简介 ElasticSearch是一款基于 Apache Lucene的开源搜索引擎产品,之后成了独立的商业公司,继而发布了ELK等一系列产品,特点是开源、分布式、准实时,标准的RESTFul接口等。 ElasticSearch可以单机部署,也可以集群部署。ES的分布式属性,可以轻松的处理超过单机负 阅读全文
posted @ 2021-05-09 21:51 ppjj 阅读(1311) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch一看就懂之分词器edge_ngram和ngram的区别1 year agoedge_ngram和ngram是ElasticSearch自带的两个分词器,一般设置索引映射的时候都会用到,设置完步长之后,就可以直接给解析器analyzer的tokenizer赋值使用。这里,我们 阅读全文
posted @ 2021-05-09 21:49 ppjj 阅读(243) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. Analysis 简介 2. index analyzer VS search analyzer 3. Analyze API 4. Ngram 5. Ngram Tokenizer 6. Ngram Token Filter 7. Edge Ngram 1. Analysis 简介 阅读全文
posted @ 2021-05-09 21:20 ppjj 阅读(1809) 评论(0) 推荐(0) 编辑
摘要:优化Refresh时间 ES在写入数据的时候,采用延迟写入的策略,数据会先写到内存中,当超过默认时间1秒 (index.refresh_interval,默认)会进行一次写入磁盘操作。如果对实时搜索要求不高的情况下,可以适当地将此值设置的高点,可以有效地减少 segment (一个segment是一 阅读全文
posted @ 2021-05-09 20:52 ppjj 阅读(1081) 评论(0) 推荐(0) 编辑
摘要:Doc Values 出现背景 https://www.elastic.co/guide/cn/elasticsearch/guide/current/docvalues-intro.htmlhttps://www.elastic.co/guide/cn/elasticsearch/guide/cu 阅读全文
posted @ 2021-05-09 20:49 ppjj 阅读(160) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示