2024-11-29

posted @ 2024-12-02 08:41 滴滴滴阅读(6) 评论(0) 编辑收藏举报

undefined

在Elasticsearch（简称ES）中，倒排索引（Inverted Index）是一种索引结构，它允许系统快速检索包含给定词汇的文档。倒排索引是搜索引擎和数据库中常用的数据结构，它由两部分组成：

词汇词典（Term Dictionary）：它保存了所有文档集合中出现过的所有唯一词汇，以及每个词汇对应的倒排索引列表的指针。

倒排索引列表（Postings List）：对于词汇词典中的每个词汇，都有一个倒排索引列表与之对应。这个列表记录了包含该词汇的所有文档的文档ID（Document ID）和词汇在文档中出现的位置信息（如词频和位置）。倒排索引列表通常包括文档ID、词频（Term Frequency，TF）、位置（Position）和偏移量（Offset）等信息。

倒排索引的主要优点是它能够快速地实现全文搜索，因为它不需要扫描整个文档集合来查找包含特定词汇的文档。相反，它只需要查找词汇词典，然后通过倒排索引列表直接定位到包含该词汇的文档。

在Elasticsearch中，倒排索引还支持多种复杂查询，如布尔查询、短语查询、范围查询等，并且能够高效地处理这些查询，因为它们可以直接利用倒排索引的结构来快速定位结果。此外，Elasticsearch还对倒排索引进行了优化，以支持大规模数据集和高并发查询。

Prometheus 支持四种主要的数据类型，分别是：

1. **Counter（计数器）**：这是一个累积的指标，用于记录一个单调递增的值，只能增加或者在重启时重置为零。例如，可以用来表示请求的总数、任务完成的数量或错误的次数。

2. **Gauge（仪表盘）**：这是一个可以任意上升或下降的指标，用于表示一个数值的当前状态。通常用于测量值，如温度或当前内存使用量，也可以用于可以上升和下降的“计数”，如并发请求的数量。

3. **Histogram（直方图）**：用于采样观察结果（通常是请求持续时间或响应大小），并计算它们在可配置的桶中的计数。直方图还提供了所有观察值的总和。

4. **Summary（摘要）**：与直方图类似，摘要也用于采样观察结果。它提供了观察总数和所有观察值的总和，并且可以计算可配置的分位数。

这些数据类型在Prometheus的客户端库中有所区分，以便提供特定于类型的API，并且在数据传输协议中也有区分。但是，Prometheus服务器目前还没有利用这些类型信息，而是将所有数据扁平化为无类型的时序数据。

Elasticsearch（ES）索引优化可以从多个角度进行，以下是一些常见的优化策略：

明确需求和字段类型：在建立索引之前，明确索引的使用场景和查询需求，以便针对性地进行索引的优化。根据字段的实际类型，选择合适的分词器和索引方式，可以大幅提高查询的效率。

合理使用分片和副本：根据索引数据量和查询需求，合理地分配分片和副本数量，可以提高索引的并发处理能力和查询性能。

避免全文检索：在某些场景下，全文检索会导致查询性能的下降，可以采用精确匹配和前缀匹配等方式进行优化。

优化查询语句：合理地使用查询语句，可以减少不必要的查询和提高查询效率。例如，采用bool查询可以对多个条件进行组合查询，提高查询的灵活性和效率。

使用缓存：对于经常被查询的索引，可以使用ES内置的缓存机制或者外部缓存服务，加快查询响应速度。

监控和调优：通过监控索引的运行情况，及时调整索引配置，优化索引性能。可以使用Elasticsearch自带的监控工具或者第三方工具进行监控和调优。

写优化：包括批量提交、优化存储设备、合理使用合并、减少Refresh的次数、加大Flush设置、减少副本的数量等
。

读优化：避免大结果集合深翻、选择合适的路由、定期删除、合理的设置SearchType等
。

堆大小的设置：根据硬件配置和数据量，适当调整Elasticsearch进程的JVM堆大小。

4摘票ES的查询是近实时的，数据写入后先存储在内存缓冲区和translog，等待refresh interval(默认1s)后刷新到FileSystemCache。此时，数据生成segment文件，成为可查询状态。refresh后，内存缓冲区清空，translog内容定时持久化到磁盘。刷新间隔可调整，以便在大量写入和实时查询需求之间找到平衡，

在Elasticsearch中，"索引方式"通常指的是如何将数据存储和组织在索引中，以便进行高效的搜索和查询。以下是一些关键的索引方式和相关概念：

1. **字段类型**：
   - Elasticsearch支持多种字段类型，如`text`、`keyword`、`integer`、`date`等，每种类型都有其特定的存储和索引方式。

2. **分词（Tokenization）**：
   - 对于`text`类型的字段，Elasticsearch使用分词器（Analyzer）将文本分割成更小的单元（Tokens），以便进行搜索。不同的语言和用例可能需要不同的分词器。

3. **倒排索引**：
   - Elasticsearch使用倒排索引来存储字段数据，这是一种将单词映射到包含它们的文档的索引结构，适用于快速文本搜索。

4. **索引分析器（Analyzer）**：
   - 分析器由字符过滤器、分词器和标记过滤器组成，它们共同决定了如何将文本转换为可搜索的tokens。

5. **字段规范化（Normalization）**：
   - 字段规范化（Norms）是存储在倒排索引中的附加信息，用于计算文档相关性得分。禁用norms可以节省空间，但会影响评分。

6. **Doc Values**：
   - Doc Values是一种列式存储结构，用于存储聚合和排序操作中使用的字段值。启用Doc Values可以提高聚合和排序的性能。

7. **索引刷新（Refresh）**：
   - 索引刷新是将新数据从Java堆内存中的缓冲区写入到磁盘上的过程，影响数据的可见性和查询性能。

8. **索引合并（Merge）**：
   - 索引合并是后台进程将多个小的段合并成更大的段的过程，影响存储和查询性能。

9. **索引存储**：
   - Elasticsearch支持对索引的存储进行优化，例如，通过压缩来减少存储空间的使用。

10. **索引模板**：
    - 索引模板允许你定义索引的默认设置，包括映射、设置和别名，这有助于标准化索引创建过程。

11. **索引生命周期管理（ILM）**：
    - ILM策略可以帮助自动化索引的创建、维护和删除过程，包括合并策略和存储优化。

12. **索引别名**：
    - 索引别名提供了一种方便的方式来引用一个或多个索引，而不需要硬编码索引名称。

13. **索引设置**：
    - 包括分片和副本的数量、索引级别的缓存设置等，这些都会影响索引的性能和可靠性。

索引方式的选择和配置对于Elasticsearch的性能至关重要，合理的索引方式可以提高查询速度，降低存储成本，并确保数据的可检索性。

针对您提到的 Kubernetes 中 Elasticsearch Pod 服务不通的问题，这里有一些可能的原因和解决方案：

Pod 状态错误：如果 Pod 处于 ImagePullBackOff 状态，这通常意味着容器无法拉取或提取镜像。您需要检查容器组状态错误消息，并验证镜像名称、标签和安全哈希算法（SHA）是否正确。如果镜像注册表需要身份验证，请确认您有权访问它
。
kubele-proxy 服务是否有问题
2. calico 或flanel 网络错误

网络问题：如果 Pod 之间的网络不通，可能的原因包括 Pod 内的路由丢失、Host 路由丢失、iptables 规则问题、IPVS 规则问题、IP 冲突、Pod 网卡停止工作、ARP 表错误、Core DNS 解析问题或流量转发表问题。您需要逐一排查这些网络相关的问题。

CoreDNS 问题：如果 CoreDNS 服务的 ReadinessProbe 端口异常，可能导致服务无法正常启动，进而导致 Pod 之间无法相互调用。检查 CoreDNS 的 Service 中的 Endpoint 是否为空，这可能是导致服务中断的原因。