ElasticSsarch汇总

用途：
分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索；
实时分析的分布式搜索引擎；
可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

点击查看安装、基本增删改查操作RESTful API方式
ES需要 Java 8 环境
$ curl -X PUT 'localhost:9200/accounts' -d ' {““:””}

下图为user字段指定分词器。analyzer是字段文本的分词器，search_analyzer是搜索词的分词器。ik_max_word分词器是插件ik提供的，可以对文本进行最大数量的分词。

使用 Match 查询，指定的匹配条件是desc字段里面包含"软件"这个词，从位置1开始（默认是从位置0开始），只返回一条结果

如果要执行多个关键词的and搜索，必须使用布尔查询。

cluster：集群
node：节点
index：索引
type：类型
document&field：文档。同一个 Index 里面的 Document，不要求有相同的结构（scheme），但是最好保持相同，这样有利于提高搜索效率。
shard：单台机器无法存储大量数据，es可以将一个索引中的数据切分为多个shard，分布在多台服务器上存储。有了shard就可以横向扩展，存储更多数据，让搜索和分析等操作分布到多台服务器上去执行，提升吞吐量和性能。每个shard都是一个lucene index。
replica：任何一个服务器随时可能故障或宕机，此时shard可能就会丢失，因此可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务，保证数据不丢失，多个replica还可以提升搜索操作的吞吐量和性能。primary shard（建立索引时一次设置，不能修改，默认5个），replica shard（随时修改数量，默认1个），默认每个索引10个shard，5个primary shard，5个replica shard，最小的高可用配置，是2台服务器。

JAVA REST client方式

点击查看不同查询条件语法

点击查看索引原理分析

倒排索引：传统的检索是通过文章，逐个遍历找到对应关键词的位置。
而倒排索引，是通过分词策略，形成了词和文章的映射关系表，这种词典+映射表即为倒排索引。有了倒排索引，就能实现 o（1）时间复杂度的效率检索文章了，极大的提高了检索效率。
倒排索引，相反于一篇文章包含了哪些词，它从词出发，记载了这个词在哪些文档中出现过，及在各文档出现的频次、位置，由两部分组成——词典和倒排表。

倒排索引的底层实现是基于：FST（Finite State Transducer）数据结构。
lucene从4+版本后开始大量使用的数据结构是FST。FST有两个优点：
1）空间占用小。通过对词典中单词前缀和后缀的重复利用，压缩了存储空间；
2）查询速度快。O(len(str))的查询时间复杂度。

点击查看默认配置及修改
es根目录的config目录下面，有elasticsearch.yml和logging.yml
默认对外服务的http端口为9200，默认节点之间交互的tcp端口为9300

posted @ 2019-04-08 16:55 Hermioneee 阅读(386) 评论(0) 收藏举报

刷新页面返回顶部

HermioneCancer

ElasticSsarch汇总

公告