降配集群

若您的业务存在流量波动(如高低峰期),导致集群资源利用率长期偏低,可通过降配功能降低节点规格、调整磁盘类型、减少磁盘空间、缩容数据节点实现资源与业务需求匹配,有效优化成本。

降配须知

重要

降配操作可能引发服务延迟、配置冲突及费用变更,请务必提前完整阅读以下须知内容。

  • 服务稳定性

    • 集群变更期间服务稳定性规则:

      集群

      服务状态

      应对措施

      高负载+无副本

      高负载:降配时高并发写入或者查询,CPU>60%、堆内存>50%

      偶发访问超时

      • 客户端启用重试机制

      • 降配前增加索引副本数(至少为1)

      降配后数据节点数≤2

      可能造成数据丢失

    • 操作窗口:业务低峰期进行。

  • 配置约束

    • 不支持在降配集群时升级版本。

    • 一次降配操作仅支持变更一种类型的节点。

    • 不支持降配弹性数据节点。

    • 同一集群连续两次降配操作需间隔≥30分钟。

  • 降配后CPU规格约束

    • 基础规则:目标规格CPU和内存 ≥ 当前规格的一半。

    • 禁止降配至:12GiB22GiB24GiB44GiB(Kibana节点可降配至22GiB

      特殊规格处理:需降配至禁用规格时,需新建集群后进行数据迁移。

  • 成本影响

    提交降配订单后,系统将按照更新后的配置单计费。计费规则请参见按量付费包年包月

降配前检查

重要

未完成以下检查直接降配可能导致集群崩溃、数据丢失或服务不可用,请逐项检查验证。

  • 集群健康

    执行GET _cluster/health 确保集群为状态为GREEN。

  • 负载安全

    集群满足以下条件,可支持降低配置:

    节点类型

    CPU使用率

    JVM堆内存使用率

    专有主节点

    1天单节点峰值 < 30%

    1天单节点峰值 < 25%

    其他角色节点

    同时满足:

    • 近1天单节点峰值 < 50%

    • 近1天所有节点均值 < 30%

    同时满足:

    • 近1天单节点峰值 < 50%

    • 近1天所有节点均值 < 30%

  • 索引就绪

    • 执行GET /_cat/indices?v检查集群中是否存在状态为close的索引。如果存在,执行POST /<index_name>/_open将对应索引的状态暂时设置为open,变配成功后重新关闭索引。

      原因:ES在执行配置变更前会强制检查集群状态(GREEN),存在关闭状态的索引时,系统将直接拒绝变更操作;变配过程中集群会重新分配分片,关闭状态的索引,其分片不参与分片分配,导致集群状态持续为YELLOW或者RED。

    • 执行GET _cat/indices?v检查索引副本数是否至少为1。

      对于多可用区实例,在变更时需确保集群中任意一个索引的副本数小于可用区数,建议副本数设置为1,变更完成后,手动增加副本数。

方式一:通过控制台降配

降配规格、磁盘类型和空间

  1. 实例列表,单击降配

    image

    更多操作入口:在基本信息页面,单击配置变更 > 集群降配

  2. 降配页面,根据业务需要调整配置项参数。

    重要

    可调整的配置项参数因集群类型和版本不同而有所出入,以降配页面为准。

    • 支持节点规格(节点存储类型)降配,按性能从高到低排序:

      1. 本地盘:本地SSD盘型(NVMe SSD本地盘)->本地SATA盘型(SATA HDD本地盘) 。

        说明

        本地盘ECS实例所在物理机上的本地硬盘设备,为ECS实例提供本地存储访问能力,适用于对存储I/O性能、海量存储性价比有极高要求的业务场景。

      2. ESSD云盘:ESSD(Enterprise SSD)云盘结合25 GE网络和RDMA技术,为您提供单盘高达100万的随机读写能力和单路低时延性能。

        说明

        ESSD-PL0不可降为SSD云盘。

      3. 上一代云盘:SSD云盘->高效云盘-> 云盘(普通云盘)。

        说明

        已在部分地域及可用区逐步停止售卖,您在选择云盘时,建议选用ESSD云盘。

    • 存储空间降配:为确保集群稳定性,降配后磁盘空间使用率须低于60%。

      降配前需确保:当前磁盘使用量 < 降配后磁盘空间 × 0.6

    • 智能变更(默认开启):系统根据变配项自动选择最优变更方式。

    • 强制变更(默认关闭,不建议开启):跳过健康检查,但会触发集群强制重启,可能导致服务长时间中断(恢复时间取决于数据量)。

  3. 单击查看产品服务协议服务等级协议,无异议后,单击立即购买,系统根据变配项自动选择最优变更策略,同时按照付费方式收取费用。

    变更期间,集群状态变为生效中,集群性能可能出现短暂波动,可能出现请求闪断;变更完成后,集群状态更新为正常,集群内节点IP会发生变化。

缩容数据节点

  1. 在实例基本信息页面,单击配置变更 > 集群数据节点缩容

    image

  2. 根据业务需要选择节点类型以及需要减少的节点个数。

    重要
    • 阿里云ES在缩容前将自动执行节点安全校验,若校验失败,请根据报错提示排除错误后重试缩容。

    • 可调整的配置项参数因集群类型和版本不同而有所出入,以控制台页面为准,本示例为向量增强版8.17.0版。

    image

  3. 单击确定,系统执行缩容操作,同时根据集群配置以及付费方式计量费用。

    变更期间,集群状态变为生效中,集群性能可能出现短暂波动,可能出现请求闪断;变更完成后,集群状态更新为正常,集群内节点IP会发生变化。

方式二:调用API降配

集群降配API文档:UpdateInstance

降配后检查

  • 降配开始后查看进度:通过控制台->实例列表->实例基本信息

    image

    单击展开详情

    image

  • 降配完成后通过集群基本信息页确认配置是否生效:

    • 集群状态恢复为正常

      image

    • 节点数和存储规格:确认节点数、存储规格、存储空间是否跟预期一致。

      image

    • 分片均衡:GET _cat/allocation?v 检查分片分布,如遇分片不均衡,请参考集群负载不均解决方案进行解决。

常见问题