重启实例或节点

当您需要修改实例或节点的配置,或者遇到集群或节点出现异常等情况时,可能需要重启阿里云Elasticsearch实例或节点。本文介绍如何通过控制台重启阿里云Elasticsearch实例或节点。

前提条件

  • 确保实例的状态为正常(绿色)、索引至少包含1个副本、资源使用率不是很高。

    重要

    对于多可用区实例,在变更时,需要确保集群中任意一个索引的副本数都小于可用区数。待变更完成后,您可以根据业务手动增加副本数。详细信息请参见索引模板

    • 查看索引副本:登录对应实例的Kibana控制台(登录Kibana控制台),执行GET _cat/indices?v 命令,在返回结果中查看对应索引的rep值,≥1表示该索引至少包含一个副本。

    • 查看资源使用率:在集群监控页面查看,例如节点CPU使用率为80%左右,节点HeapMemory使用率为50%左右,节点load_1m低于当前数据节点的CPU核数。详细信息,请参见指标含义与异常处理建议

  • 在Kibana控制台执行以下命令,检查集群中是否存在状态为close的索引。如果存在,需要将对应索引的状态暂时设置为open,否则变更不成功。

    • 查看索引状态

      GET /_cat/indices?v

      查看索引状态

    • 将close状态的索引暂时设置为open状态

      POST /<index_name>/_open

      <index_name>需要替换为状态为close的索引名称。

注意事项

如果集群整体负载不高且索引存在副本分片,一般情况下重启过程中可对外持续提供服务。但在某些场景下,重启过程中可能会出现访问超时,例如强制重启并发度高、集群负载很高并且已经存在集群访问不可用的情况、没有副本分片、在重启或强制重启过程中存在大量的写入和查询等场景,建议重启前先在客户端设计好重试机制并且在业务低峰期进行操作。

操作步骤

  1. 登录阿里云Elasticsearch控制台
  2. 在左侧导航栏,单击Elasticsearch实例
  3. 进入目标实例。
    1. 在顶部菜单栏处,选择资源组和地域。
    2. Elasticsearch实例中单击目标实例ID。
  4. 基本信息页面,单击右上角的重启

  5. 重启对话框中,配置重启参数。

    参数

    说明

    操作类型

    支持实例重启节点重启角色节点重启

    • 实例重启:重启实例中所包含的所有节点。

    • 节点重启:重启所选节点。

    • 角色节点重启:重启所选的角色节点。

    选择节点

    选择待重启的节点或角色节点。仅当操作类型节点重启角色节点重启时显示。具体说明如下:

    • 操作类型节点重启时:选择待重启的节点,支持选择多个节点,实现批量重启。

    • 操作类型角色节点重启时:选择待重启的角色节点,例如数据节点Kibana节点等。支持选择多个角色节点。

    蓝绿变更

    选择是否进行蓝绿变更。仅当操作类型节点重启角色节点重启时显示。

    选择蓝绿变更后进行重启,阿里云Elasticsearch会在集群中添加一个新节点,将原节点上的数据迁移到新节点后,再将原节点删除。当集群中单个节点的性能不佳时,例如CPU使用率持续高,可优先选择蓝绿变更功能。

    重要
    • 请确保实例处于正常(绿色)状态,以正常的方式触发蓝绿变更重启。使用蓝绿变更时,不允许对实例进行强制重启

    • 勾选蓝绿变更后进行重启,会导致节点IP地址发生变化。如果在集群配置中指定了节点IP地址,请在变更完成后及时更新。

    • 1核2 GB规格的实例不支持蓝绿变更。如果要进行蓝绿变更,需要将实例升配至2核4 GB及以上规格,具体操作请参见升配集群

    重启方式

    支持重启强制重启

    • 重启:当实例的状态正常(绿色)时,才可进行重启,否则需要进行强制重启。实例在重启过程中可持续提供服务(需要满足上文的前提条件),但耗时较长。

      重要
      • 节点在重启期间,对应的CPU和内存使用率会存在临时突增的情况,可能会造成服务抖动,正常情况下过一段时间后会恢复正常。

      • 目前阿里云Elasticsearch实例的重启耗时与集群规模等因素有关。您可以在任务列表中查看实例的重启进度。

    • 强制重启:当实例显示为非正常状态(黄色或红色),此时将不支持重启操作,需要进行强制重启。

      重要

      当磁盘的使用率超过cluster.routing.allocation.disk.watermark.low的配置时,可能会导致Elasticsearch实例的状态变为非正常状态(黄色或红色)。当实例处于非正常状态时,不建议对实例进行节点扩容、磁盘扩容、重启、修改密码或其他变更配置类的操作,请务必保证实例的状态变为正常(绿色)后再进行这些操作。

    设置并发度

    并发度是指并发重启的节点数,默认值为(1/实例总节点数)*100%。例如,并发度为10%,表示同时重启集群中10%的节点。

    • 仅当重启方式强制重启时显示该参数。

    • 提升并发度可以显著加快实例强制重启的速度,但并发度越高,强制重启的影响也越大。如果并发度为100%,将同时重启所有节点,导致集群无法访问,未写入磁盘的缓存数据可能存在丢失情况,一般建议在集群异常需紧急恢复场景应用。

    说明

    预计所需总时间表示按照前一次单节点重启时间的均值,乘以总节点个数进行评估。可能存在误差,实际以真实重启时间为准。

  6. 单击确认,开始重启操作。

    说明

    如果是强制重启,需要先勾选确认要强制重启,进行重启确认。

    重启过程中,实例状态显示为生效中。在页面右上角单击image图标,查看变更进度。重启成功后,实例状态显示为正常

常见问题