ES深入1-整体结构

ES ES 搜索

发布时间 : 2024-06-18 08:54

字数:2.1k 阅读 :

评论:

整体架构
索引流程
搜索流程
参考资料

整体架构

掌握了ES的基本用法后，我们来深入了解一下ES的整体架构。

es架构草图.png

ES集群模式下，有多个节点（node）组成一个完整集群。每个节点可以承担不同的角色从而构成不同的节点，包括但不限于：
- 主节点（Master Node）
  - 负责集群的管理和协调工作，比如创建或删除索引、跟踪集群中节点的状态、分配碎片（shards）等；
  - 主节点并不直接参与文档的索引或搜索操作，以减轻其负担；
  - 通常建议设置较少数量的专用主节点，以确保集群的稳定性；
- 数据节点（Data Node）:
  - 存储数据片段（shards）并参与文档的索引和搜索操作。
  - 数据节点是集群中最耗费资源的部分，因为它们需要处理数据的存储和检索。
  - 根据集群规模和硬件配置，可以有多台数据节点。
- 协调节点（Coordinating Node）
  - 虽然不是一个官方的节点角色，但在实践中，可以配置节点不承担数据存储或主节点职责，专门负责接收客户端请求、协调搜索和索引操作。
  - 这有助于分散主节点和数据节点的压力，提高集群的整体响应速度。
- 专用主节点（Dedicated Master-Eligible Node）:
  - 仅具有主节点资格，不承担数据存储任务，专注于集群管理。
  - 用于避免主节点因其他任务过载。
- 冻结节点（Frozen Node）:
  - 专门用于存储冻结索引，这些索引的数据访问频率较低，但需要长期保存。
数据节点（Data Node负责持有数据分片（包括主分片和副本分片），参与文档的索引、搜索、更新以及删除等数据处理操作。当索引数据时，Elasticsearch 会根据配置的分片策略将数据分布在网络中的各个数据节点上，实现数据的水平扩展和负载均衡。此外，数据节点还负责维护分片的状态，确保数据的完整性和高可用性；
每一个Index由多个分片构成，这些分片会分散在不同数据节点上；
每一个分片是一个最小级别的工作单元，本质上是一个功能完备且独立的Luncene 索引实例。每个ES索引可以被分成多个分片，每个分片都包含索引中部分数据的文档集合。分片有两种类型：主分片（Primary Shards）和副本分片（Replica Shards）。主分片是索引数据存储的基本单位，而副本分片则是主分片的拷贝，用于提高数据的可用性和读取性能；
段（Segments）在分片内部，数据被组织成多个段。每个段都是一个不可变的倒排索引结构，包含了文档的一部分。随着时间推移，新的文档被写入新的段中，旧的段可能被合并以优化查询性能和磁盘使用。

索引流程

Elasticsearch（ES）文档插入到索引的过程大致遵循以下步骤：

客户端请求：首先，客户端（比如一个应用程序或者API请求）向Elasticsearch集群发送一个HTTP PUT或POST请求，请求中包含要插入文档的具体信息，比如文档的JSON内容、目标索引名称以及可选的ID。
节点接收：请求被发送到集群中的任何节点，这个节点被称为协调节点。协调节点负责接收请求并进行后续的路由操作，而不直接处理数据的存储或检索。
路由决策**：协调节点根据文档ID和索引的配置计算出该文档应存储在哪个主分片上。这个过程基于一种散列算法，确保相同ID的文档总是被路由到同一个分片上。
转发请求：协调节点将请求转发给存储目标主分片的数据节点。如果请求中包含写操作（如索引或更新），则直接转发到该主分片所在节点。
文档处理：
- 分析：数据节点接收到请求后，首先对文档内容进行分析，这包括分词（tokenization）、去除停用词、转换为小写等，以便创建适合搜索的结构。
- 索引文档：经过分析后，文档被序列化为Lucene的内部格式，并添加到相应的主分片中。这个过程涉及到倒排索引的构建或更新，确保文档可以被快速检索。
事务日志记录：在文档被实际写入到内存或磁盘之前，Elasticsearch会先将其操作记录在事务日志（Translog）中，这是为了确保数据的持久性。
刷新（Refresh）：Elasticsearch有一个可配置的刷新周期（默认为1秒），在这个周期内，内存中的文档会被刷新到一个新的Lucene段中，并打开供搜索。这意味着文档在被索引后很快（几乎是实时的）就能被搜索到，但这个过程比直接写入硬盘更快，因为段还在内存中。
副本同步：一旦文档被成功写入主分片，协调节点还会确保副本分片也得到更新，以维持索引的高可用性。这个过程是异步的，可以配置副本数量来增强数据冗余。
确认响应：一旦主分片和所有副本分片（根据配置的副本确认级别）都确认了写入操作，协调节点会向客户端发送一个成功的响应，表明文档已被成功索引。
段合并：在后台，Elasticsearch会定期进行段合并，将小的段合并成更大的段，以优化存储和查询性能。这个过程发生在索引和搜索操作之外，不会影响正常的读写操作。

搜索流程

在Elasticsearch (ES) 集群中执行一次搜索请求的大致过程如下：

请求接收：
- 客户端发送搜索请求到Elasticsearch集群中的任意一个节点，这个节点称为**协调节点(coordinating node)**。
解析与路由：
- 协调节点解析搜索请求，包括查询条件、过滤器、排序方式等，并根据索引信息确定哪些分片可能包含相关数据。在ES中，数据被分割成多个分片(shards)，每个分片可以有零个或多个副本(replicas)。协调节点会根据分片信息决定需要向哪些分片发起搜索请求。
查询转发：
- 协调节点将搜索请求转发给持有相关数据分片的节点。这一步骤会根据网络往返次数最小化或非最小化策略进行。如果是最小化策略，协调节点尝试减少与各个分片的交互次数，可能一次性向多个节点发送请求；非最小化策略则可能涉及更多次的交互。
分片级别搜索：
- 每个持有相关分片的节点在其本地分片上执行搜索操作，生成该分片上的匹配结果集。这一步可能包括倒排索引的查询、文档评分、排序等操作。
结果汇总：
- 各个分片节点将搜索结果返回给协调节点。协调节点对这些结果进行汇总处理，可能包括去重、合并、排序以及根据请求参数执行后续的聚合操作。
结果剪裁与排序：
- 协调节点根据请求中的分页参数、排序规则等对汇总的结果进行剪裁和排序，以准备最终返回给客户端的数据集。
响应构建与返回：
- 协调节点将最终的搜索结果封装成响应体，并通过HTTP响应的形式返回给客户端。

整个过程中，Elasticsearch利用其分布式特性并行处理请求，提高了搜索效率。此外，Elasticsearch还提供了丰富的API和机制来优化搜索性能，如预处理节点(ingest node)可以对数据进行预处理，而复制机制确保了数据的高可用性。

参考资料

https://pdai.tech/md/db/nosql-es/elasticsearch-y-th-2.html

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 duval1024@gmail.com