自动伸缩可以根据您配置的伸缩策略动态分配计算节点,实现根据实时负载自动增加或减少计算节点,以提高集群可用性,降低使用成本。本文介绍如何配置自动伸缩。
功能优势
根据实时负载,自动增加计算节点,提高集群的可用性。
在保证集群可用性的前提下,自动减少计算节点,降低集群成本。
停止异常状态的节点,并创建相应的新节点,提高集群容错能力。
使用限制
仅支持所有节点的操作系统为Linux的集群配置自动伸缩。
仅支持调度器为PBS、Slurm、Deadline或SGE(即Open Grid Scheduler)的集群配置自动伸缩。
不支持基于内存维度的自动伸缩。
重要建议在提交作业时指定作业所需的vCPU来实现自动伸缩,另外作业指定的内存使用大小不能超出ECS资源的内存规格。
注意事项
自动伸缩服务依赖于调度器服务和域账号服务运行正常。开启自动伸缩后,管控节点需要一直保持运行中。
如果管控节点需要关机或者重启,请在计算节点没有作业运行,并且自动伸缩已经释放了空闲节点后再进行操作。此时,建议您先关闭自动伸缩,在管控节点重新启动后,再开启自动伸缩。
操作步骤
打开自动伸缩页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,选择
。
在自动伸缩页面,从集群列表中选择需要配置自动伸缩的集群。
在全局配置区域完成参数配置。
配置项
描述
开关设置
为集群内所有队列开启自动扩容和自动缩容。
说明当队列配置和全局配置中配置不一致时,以队列设置为优先。
集群计算节点数
显示集群扩缩容后允许的计算节点数量范围。上限值为集群中各队列配置的最大节点数总和,下限值为各队列配置的最小节点数总和。
缩容时间(分钟)
一个计算节点的连续空闲时间超过缩容时间时,该节点会被释放。
连续空闲时间=缩容时间间隔*连续空闲次数。其中,缩容时间间隔默认为2分钟,节点连续空闲次数指资源收缩检查时,一个节点连续处于空闲的次数。
镜像类型
扩容的节点的镜像类型,仅支持和集群已有计算节点镜像匹配的镜像。
例外节点列表
不参与自动伸缩的节点。
如果您希望一直保留某个节点,可以将其设置为例外节点。例外节点在空闲时不会被释放。
实例是否开启HT
默认情况下,ECS实例均已开启超线程HT(Hyper-Threading)。对于部分实例规格的ECS实例,支持关闭HT来获得更好的性能。更多信息,请参见规格限制和关闭计算节点的CPU超线程。
在队列配置区域,选择队列,然后单击编辑完成参数配置。
配置
描述
启动扩容、启动缩容
是否开启自动扩容和自动缩容,默认关闭。
说明当队列配置和全局配置中配置不一致时,以队列设置为优先。
队列节点数
队列允许的计算节点数量范围。
最大节点数:该值会影响扩容效果,取值范围为0~5000。
最小节点数:该值会影响缩容效果,取值范围为0~1000。
重要如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。
主机名前缀
节点主机名的开头字符,用以标记区分不同队列节点。
单轮扩容的最大节点数量
每轮自动伸缩扩容周期最多扩容的节点数量。默认为0,表示不限制最大扩容数量。
如果您对使用成本有要求,可以设置单轮扩容的最大节点数量,确保扩容的节点数量不超出预期。
假设单轮扩容最大节点数量设置为A台,实际排队作业所需节点数量为B台,则扩容情况如下:
B≤A时,扩容B台。
B>A时,仅扩容A台。
说明除单轮扩容的最大节点数量外,节点数量还受限于队列和集群的最大节点数量。
单轮扩容的最小节点数量
每轮自动伸缩扩容周期最少扩容的节点数量。默认为1,表示最少扩容1台。
某些场景可能需要至少扩容一定数量的节点才能保证业务运行。此时,您可以设置单轮扩容的最小节点数量,以确保在资源受限、无法扩容到指定的最小数量的节点时,不进行扩容,避免资源浪费。
假设单轮扩容最小节点数量设置为A台,实际排队作业所需节点数量为B台,则扩容情况如下:
B≤A时,扩容B台。如果资源受限无法扩容B台,则不扩容。
B>A时,扩容B台。如果资源受限无法扩容B台,则尽量保证扩容A台及以上数量;如果无法扩容A台,则不扩容。
自动设置单轮扩容最小节点数量
如果打开该开关。每次扩容的最小节点数等于作业所需的节点数量,上限是99台。
主机名后缀
节点主机名的结尾字符,用以标记区分不同队列节点。
镜像类型
单个队列扩容的节点的镜像类型。不同队列可单独配置不同镜像类型。
镜像ID
扩容节点所属的镜像ID,不同队列可配置不同镜像ID。
说明该配置项只针对当前队列,若队列中不指定镜像类型和镜像ID,则扩容节点的镜像由全局配置中的镜像类型配置决定;若全局配置中也没有指定镜像类型,则扩容节点的镜像和集群默认镜像类型一致。
实例规格是否乱序排列
如果打开该开关,自动伸缩会按照实例规格的库存数量从多到少的顺序选择实例规格,保障资源交付。
配置清单
设置扩容实例的配置。配置清单包括以下信息:
可用区:集群所在地域的不同可用区。
交换机ID:可用区内与集群VPC绑定的可选交换机ID。
实例类型:单个队列中扩容计算节点的实例规格。
说明如果队列中配置了多个实例规格,自动伸缩将按照实例规格的配置顺序,并基于实例的库存以及作业的任务数和GPU数,自动请求资源进行扩容。例如,当前排队作业需要单节点具备16核,队列分别配置8、16和32核时,自动伸缩将会自动选择16核的实例规格进行扩容,但如果16核实例规格没有库存,自动伸缩将会选择32核的实例规格进行扩容。
抢占式策略:扩容实例配置的竞价方式。
每小时最高价格:仅抢占式策略设置为设置上限价格的抢占实例时设定每小时最高价格的区间。
系统盘
修改扩容实例的系统盘配置。
数据盘
为扩容实例挂载数据盘。根据业务需要设置数据盘类型、大小、性能级别,以及是否随实例释放、是否加密。
在页面右上角,阅读并选中《E-HPC服务条款》,单击确认。
(可选)查看集群自动伸缩示意图。
您可以通过集群自动伸缩示意图了解您配置的伸缩策略在自动伸缩的过程中,节点数随时间推移的变化,以及在关键时间点实例扩容和缩容所耗费时间。
说明您也可以在集群自动伸缩示意图区域设置模拟并发节点数,来手动模拟自动伸缩过程中计算节点的变化。