摘要: 深入理解聚合分析原理及精确性问题 1. Metric Aggregation 单值分析,只输出一个分析结果 min max avg sum cardinality (类似distinct count) 多值分析,输出多个分析结果 stats extended stats percentile, pe 阅读全文
posted @ 2022-10-20 21:13 算法小生 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 1. 刨析分布式查询及相关性算分 1.1 分布式搜索的运行机制 ElasticSearch的搜索,会分为两阶段进行 第一阶段 Query 第二阶段 Fetch Query Then Fetch 1.2 Query阶段 用户发出搜索请求到ES节点。节点收到请求后,会已Coordinating节点的身份 阅读全文
posted @ 2022-10-20 21:10 算法小生 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 由于nlp分词服务属于CPU密集型,所以需要在部署的时候尽量使得pod分散在不同node上,已缓解cpu负载,目前发现线上部署每次发布都会到同一节点上,故如下改造 apiVersion: apps/v1 kind: Deployment metadata: name: shenjian-nlp na 阅读全文
posted @ 2022-10-20 21:04 算法小生 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 分片内部原理及其生命周期 什么是ES分片 ES中最小的工作单元,是一个Lucene的index 一些问题 ES搜索是近实时的 ES在断电时数据不会丢失 删除文档,不会立刻释放空间 1.1 倒排索引不可变性 倒排索引采用Immutable Design,一旦生成,不可更改 不可变性优点 无需考虑并发写 阅读全文
posted @ 2022-10-20 20:58 算法小生 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 1. 分布式特性 ElasticSearch的分布式架构带来的好处 存储的水平扩容,支持PB级数据 提高系统可用性,部分节点停止服务,整个集群服务不受影响 2. 脑裂问题 Split-Brain 当出现网络问题,一个节点和其他节点无法连接,在各自的网络环境下,选举为各自主节点 如何避免脑裂问题? 限 阅读全文
posted @ 2022-10-20 20:56 算法小生 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 1. 相关性和相关性算分 1.1 相关性 搜索的相关性算分,描述了一个文档和查询语句匹配的程度。ES会对每个匹配查询条件的结果进行算分_score 打分的本质是排序,需要把最符合用户需求的文档排在最前面。ES5之前,默认的相关性算分是TF-IDF,现在采用BM 25 2. 词频TF Term Fre 阅读全文
posted @ 2022-10-20 20:53 算法小生 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 1. 基于词项与全文的搜索 1.1 基于term的搜索 term的重要性:term是表达语义的最小单位 特点: 包括term query\range query\exists query\prefix query\wildcard query term查询,对输入不做分词 可以通过constant 阅读全文
posted @ 2022-10-20 20:49 算法小生 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 1. 聚合分类 Bucket Aggregation:系列满足特定条件的文档的集合,如term range GET kibana_sample_data_flights/_search { "size": 0, // 只显示聚合结果 "aggs": { "flight_dest": { "terms 阅读全文
posted @ 2022-10-20 20:45 算法小生 阅读(38) 评论(0) 推荐(0) 编辑