重启集群或节点

在变更集群配置或处理集群异常时,需要重启集群或其中的节点。了解不同重启方式的适用场景与风险,有助于安全、高效地完成重启操作。

重启前:健康检查与准备

为确保重启过程平稳,在执行重启操作前,需完成以下健康检查和准备工作。

  1. 确认集群健康状态
    通过Kibana连接集群执行 GET _cluster/health 命令,确保 status 字段为 green

    例外:只有在执行强制重启时,才允许在 yellow 或 red 状态下操作。

  2. 确保数据冗余
    执行 GET _cat/indices?v 命令,检查所有关键索引的 rep (副本数) 值。

    • 确保副本数至少为 1,没有副本的索引在重启期间将无法访问。

    • 对于多可用区实例,确保任意索引的副本数都小于可用区数量。

  3. 检查并处理关闭状态的索引
    执行 GET _cat/indices?v 命令,检查是否存在 status 为 close 的索引。

    • 原因:关闭状态的索引会导致集群健康检查失败,分片无法正常分配,从而阻塞重启流程。

    • 操作:如果存在,执行 POST /<index_name>/_open 命令将其打开。

  4. 评估集群负载
    在实例的集群监控页面,检查以下核心指标,确保资源使用率满足要求,为重启过程中的分片迁移预留足够资源。

    • 节点CPU使用率:建议在80%以下。

    • 节点HeapMemory使用率:建议在50%左右。

    • 节点load_1m:建议低于数据节点的CPU核数。

执行重启操作

完成健康检查后,按照以下步骤执行重启。

  1. 登录阿里云Elasticsearch控制台,在左侧导航栏,单击Elasticsearch实例。

  2. 在顶部菜单栏选择目标实例所在的地域,然后单击目标实例ID,在基本信息页面,单击右上角的重启

    image

  3. 在弹出的重启对话框中,根据需求配置以下参数。

    image

    • 操作类型

      • 实例重启:重启实例中的所有节点。适用于集群级别的变更。

      • 节点重启:选择并重启一个或多个指定节点。适用于处理个别问题节点。

      • 角色节点重启(仅适用于基础管控集群v2):按角色(如数据节点、Kibana节点)选择并重启节点。

    • 蓝绿变更重启方式

      重启操作会影响集群的稳定性与可用性,执行重启操作前,请根据具体场景、集群状态和风险承受能力,选择合适的重启方式。

      重启方式

      集群状态要求

      适用场景

      服务影响

      适用实例版本

      蓝绿变更

      正常 (绿色)

      此操作通过向集群添加新节点,将原节点数据迁移至新节点后,再删除原节点。

      该方案适用于集群中单个节点性能不佳(例如 CPU 使用率持续高位运行),且对变更时长不敏感但对集群可用性要求较高的场景。

      重要

      蓝绿变更不允许与强制重启同时使用。

      节点IP会发生变化、集群性能可能出现短暂波动。

      不支持12GB规格

      重启 (标准)

      正常 (绿色)

      计划内维护、集群常规配置。

      节点IP无变化,重启耗时较长,在有副本分片的情况下,服务可持续提供但可能出现短暂波动。

      所有版本

      灰度重启

      正常 (绿色)

      在生产环境中,希望分批验证重启效果,降低整体风险。

      选择此项后,需要先选择要灰度重启的节点。待第一批节点重启完成且集群稳定后,再手动触发后续变更以重启剩余节点。

      节点IP无变化。先重启部分节点进行观察,再继续重启剩余节点。

      仅限云原生新管控 (v3) 集群

      强制重启

      非正常 (黄色/红色)

      当实例处于非健康状态(黄色或红色)时,其他重启操作将被禁用,必须执行强制重启。

      重要

      当磁盘使用率超过 cluster.routing.allocation.disk.watermark.low 阈值时,可能导致集群进入非健康状态(黄色或红色)。期间,请避免执行以下操作:

      • 节点扩容

      • 磁盘扩容

      • 重启(常规或强制)

      • 修改密码

      • 其他配置变更类操作

      需待实例恢复至健康状态(绿色)后,再进行上述操作。

      节点IP无变化。

      提升并发度可显著加快强制重启速度,但也会带来更大影响:

      • 高并发度风险: 若设为 100%,将同时重启所有节点,导致集群服务完全中断,且未持久化的缓存数据可能丢失。

      • 使用建议: 集群异常需紧急恢复时使用高并发度设置。

      并发度:指同时重启的节点数量,默认值为集群总节点数的 10%(向上取整,至少为 1 个节点)。例如并发度设为 10%,表示每次重启集群中 10% 的节点。
      该参数仅在强制重启模式下显示。

      所有版本

  4. 确认参数无误后,单击确认

    如果执行强制重启,需额外勾选确定要强制重启。操作开始后,实例状态将变为生效中,可在页面右上角的任务列表中查看重启进度。重启完成后,实例状态将恢复为正常。

常见问题