摘要:
多shard场景下相关度分数(relevance score)不准确问题 在es中检索某个field中是否包含关键字,会使用到TF/IDF算法来计算相关度分数 计算相关度分数主要从以下三点考虑 在一个doc中field中关键字出现的次数(越大相关度越高) 在所有doc中field中关键字出现的次数( 阅读全文
摘要:
ES的Java API Transport Client:TransportClient不推荐使用,而推荐使用Java High Level REST Client,并将在Elasticsearch 8.0中删除。 JAVA REST Client Java Low Level REST Clien 阅读全文
摘要:
什么是相关度 相关性描述的是⼀个⽂档和查询语句匹配的程度。ES 会对每个匹配查询条件的结果进⾏算分_score。_score 的评分越高,相关度越高。 信息检索工具性能的3大指标 查准率 Precision:尽可能返回较少的无关文档; 查全率 Recall:尽可能返回较多的相关文档; 排序 Rank 阅读全文
摘要:
分词器的概念 Analysis和Analyzer Analysis:文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词 Analysis是通过Analyzer来实现的。 当一个文档被索引时,每个Field都可能会创建一个倒排索引(Mapping可以设置不索引该Field)。 倒 阅读全文
摘要:
Mapping 概念 mapping就是ES数据字段field的type元数据,ES在创建索引的时候,dynamic mapping会自动为不同的数据指定相应mapping,mapping中包含了字段的类型、搜索方式(exact value或者full text)、分词器等 查看Mapping #查 阅读全文
摘要:
在http://192.168.232.128:5601/app/dev_tools#/console连接中进行直接数据操作(安装了Kibana) 没有安装的直接连接也可用postman直接连接ES 新增数据 #相关测测试数据 PUT /product/_doc/1 { "name" : "xiao 阅读全文
摘要:
ES的容错机制 假设场景,现在一共有9个shard,其中3个shard 6个replica,一共有三个es节点,node1是master节点,具体如下图: 如果下载master节点挂掉,shard1,replica2-1,replica3-1 节点会丢失,在master节点挂掉的一瞬间 shard1 阅读全文
摘要:
环境 JDK 8 centos 7 elasticsearch的基于lucene开发, lucene是java语言开发,因此需要java环境 安装es 安装包下载 https://www.elastic.co/cn/downloads/elasticsearch 解压安装包 tar -zxvf el 阅读全文
摘要:
什么是搜索引擎 搜索引擎,即指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.小到一个网站的内部搜索功能,如博客文章的搜索,电商平台商品的搜索,大到提供全网搜索的网站,如谷歌、百度等 倒排索引 索引就类似于目 阅读全文
摘要:
MySQL优化官网参考 如何优化 设计数据库时:数据库表、字段的设计,存储引擎 利用好MySQL自身提供的功能,如索引等 横向扩展:MySQL集群、负载均衡、读写分离 SQL语句的优化(收效甚微) 字段设计 字段类型的选择,设计规范,范式,常见设计案例 存储IP地址 常规做法: varchar(15 阅读全文