配置自动伸缩策略

自动伸缩可以根据您配置的伸缩策略动态分配计算节点实例,实现根据实时负载自动增加或减少计算节点,以提高集群可用性,降低使用成本。本文介绍如何配置自动伸缩策略。

前提条件

配置自动伸缩的集群需满足以下条件:

  • 集群中所有节点操作系统必须为Linux。

  • 调度器必须为pbs、slurm或者deadline。

功能优势

自动伸缩可以实现以下功能:

  • 根据实时负载,自动增加计算节点,提高集群的可用性。

  • 在保证集群可用性的前提下,自动减少计算节点,降低集群成本。

  • 停止异常状态的节点,并创建相应的新节点,提高集群容错能力。

操作步骤

  1. 登录弹性高性能计算控制台

  2. 在顶部菜单栏左上角处,选择地域。

  3. 在左侧导航栏,选择弹性 > 自动伸缩

  4. 自动伸缩页面,从集群列表中选择需要配置伸缩策略的集群。

  5. 全局配置区域完成参数配置。

    配置

    描述

    开关设置

    为集群内所有队列开启自动扩容和自动缩容。

    说明

    当队列配置和全局配置中配置不一致时,以队列设置为优先。

    集群计算节点数

    显示集群可以扩容的计算节点数量范围。上限值为集群中各队列配置的最大节点数总和,下限值为各队列配置的最小节点数总和。

    缩容时间

    一个计算节点连续空闲时间超过缩容时间,就会被释放。

    连续空闲时间=缩容时间间隔*连续空闲次数。其中,缩容时间间隔默认为2分钟,节点连续空闲次数指资源收缩检查时,一个节点连续处于空闲的次数。

    镜像类型

    扩容的节点的镜像类型,仅支持和集群原计算节点镜像匹配的镜像。

    例外节点列表

    不参与自动伸缩的节点。

    如果您希望一直保留某个节点,可以将其设置为例外节点。例外节点在空闲时不会被释放。

  6. 队列配置区域,单击编辑完成参数配置。

    配置

    描述

    启动扩容启动缩容

    是否开启自动扩容和自动缩容,默认关闭。

    说明

    当队列配置和全局配置中配置不一致时,以队列设置为优先。

    队列节点数

    队列允许的计算节点数范围。包括以下选项:

    • 最大节点数:最大允许扩容的计算节点数为0~500。

    • 最小节点数:最小允许保留的计算节点数为0~50。

    主机名前缀

    节点主机名的开头字符,用以标记区分不同队列节点。

    单轮扩容的最大节点数量

    每轮自动伸缩扩容周期最多扩容的节点数量。默认为0,表示不限制最大扩容数量。

    如果您对使用成本有要求,可以设置单轮扩容的最大节点数量,确保扩容的节点数量不超出预期。

    假设单轮扩容最大节点数量设置为A台,实际排队作业所需节点数量为B台,则扩容情况如下:

    • B≤A时,扩容B台。

    • B>A时,仅扩容A台。

    说明

    除单轮扩容的最大节点数量外,节点数量还受限于队列和集群的最大节点数量。

    单轮扩容的最小节点数量

    每轮自动伸缩扩容周期最少扩容的节点数量。默认为1,表示最少扩容1台。

    某些场景可能需要至少扩容一定数量的节点才能保证业务运行。此时,您可以设置单轮扩容的最小节点数量,保证在资源受限,无法扩容指定的最小数量的节点时,不进行扩容,避免资源浪费。

    假设单轮扩容最小节点数量设置为A台,实际排队作业所需节点数量为B台,则扩容情况如下:

    • B≤A时,扩容B台。如果资源受限无法扩容B台,则不扩容。

    • B>A时,扩容B台。如果资源受限无法扩容B台,则尽量保证扩容A台及以上数量;如果无法扩容A台,则不扩容。

    主机名后缀

    节点主机名的结尾字符,用以标记区分不同队列节点。

    镜像类型

    单个队列扩容的节点的镜像类型。不同队列可单独配置不同镜像类型。

    镜像ID

    扩容节点所属的镜像ID,不同队列可配置不同镜像ID。

    说明

    该配置项只针对当前队列,若队列中不指定镜像类型和镜像ID,则扩容节点的镜像由全局配置中的镜像类型配置决定;若全局配置中也没有指定镜像类型,则扩容节点的镜像和集群默认镜像类型一致。

    配置清单

    配置清单包括扩容的计算节点的配置信息。包括以下信息:

    • 可用区:集群所在地域的不同可用区。

    • 交换机ID:可用区内与集群VPC绑定的可选交换机ID。

    • 实例类型:单个队列中扩容计算节点的实例规格。

      说明

      如果队列中配置了多个实例规格,自动伸缩将按照实例规格的配置顺序,并基于实例的库存以及作业的任务数和GPU数,自动请求资源进行扩容。例如,当前排队作业需要单节点具备16核,队列分别配置8、16和32核时,自动伸缩将会自动选择16核的实例规格进行扩容,但如果16核实例规格没有库存,自动伸缩将会选择32核的实例规格进行扩容。

    • 抢占式策略:扩容实例配置的竞价方式。

    • 每小时最高价格:仅抢占式策略设置为设置上限价格的抢占实例时设定每小时最高价格的区间。

  7. 阅读并选中《E-HPC服务条款》,单击确认

  8. (可选)查看集群自动伸缩示意图。

    您可以通过集群自动伸缩示意图了解您配置的伸缩策略在自动伸缩的过程中,节点数随时间推移的变化,以及在关键时间点实例扩容和缩容所耗费时间。

    说明

    您也可以在集群自动伸缩示意图区域设置模拟并发节点数,来手动模拟自动伸缩过程中计算节点的变化。

阿里云首页 弹性高性能计算E-HPC 相关技术圈