您可以通过配置集群自动伸缩,实现计算节点的动态分配,无需手动操作。此功能根据实时负载自动调整计算节点数量,既提高了集群的可用性,又降低了使用成本。本文介绍如何配置自动伸缩。
功能优势
根据实时负载,自动增加计算节点,提高集群的可用性。
在保证集群可用性的前提下,自动减少计算节点,降低集群成本。
停止异常状态的节点,并创建相应的新节点,提高集群容错能力。
注意事项
自动伸缩服务依赖于调度器服务和域账号服务运行正常。开启自动伸缩后,管理节点需要一直保持运行中。
如果管理节点需要关机或者重启,请在计算节点没有作业运行,并且自动伸缩已经释放了空闲节点后再进行操作。此时,建议您先关闭自动伸缩,在管理节点重新启动后,再开启自动伸缩。
操作步骤
进入集群列表页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,找到待操作的集群,单击自动伸缩。
在弹出的集群自动伸缩对话框中,完成集群全局配置区域的参数配置。
配置项
说明
开关设置
为集群内所有队列开启自动扩容和自动缩容。
说明当队列配置和全局配置中配置不一致时,以队列设置为优先。
扩容等待时间
指从提交作业到系统开始扩容操作所需的预计时间。默认为2分钟。
缩容等待时间
指节点在没有接收到任何作业请求的情况下,持续空闲的时间阈值,超过这个时间后,系统将会自动释放该节点的资源。其中,缩容等待时间默认为4分钟。
集群最大节点数
该集群内可创建的最大节点数。
集群最大核数
该集群内可创建的最大核数。
在计算节点与队列区域,找到待操作的队列。单击目标队列操作列中的伸缩配置,在编辑队列页面配置以下参数。
基本设置
配置项
说明
队列自动伸缩
队列自动伸缩默认为关闭状态,开启该功能后,根据实际业务需求选择是否开启自动扩容和自动缩容。
说明当队列配置和全局配置中配置不一致时,以队列设置为优先。
队列节点数
队列允许的计算节点数量范围。
最小节点数:该值会影响缩容效果,取值范围:0~1000。
最大节点数:该值会影响扩容效果,取值范围:0~5000。
重要如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。
队列最大节点数不能超过集群最大节点数。
选择队列节点配置
如果开启了队列自动伸缩,或者没有开启队列自动伸缩但初始节点数不为0时,需配置以下信息,以便系统可以创建计算节点。
配置项
说明
节点间互联
选择节点之间网络连通方式。
VPC网络:节点之间通过VPC网络进行通信。
eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。
说明仅部分节点规格支持ERI,更多信息,请参见eRDMA概述和在企业级实例上配置eRDMA。
虚拟交换机
选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。
实例规格组
单击添加实例规格,选择节点的规格。
如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。
重要您可以选择多个虚拟交换机和多个实例规格作为备选,避免因库存问题导致实例创建失败。创建计算节点时,系统会从第一个交换机所在可用区开始,按照实例规格顺序尝试创建,直到创建出满足所需节点数量的计算节点。最终创建成功的实例的规格可能随库存变化而不同。
自动伸缩
配置项
说明
伸缩策略
选择伸缩策略。目前仅支持供应优先策略,表示会按照配置的交换机顺序,从对应可用区依次尝试创建符合规格要求的计算节点。
单次最大伸缩节点数
每轮扩容或缩容周期最多增加或减少的节点数量。默认为0,表示不限制最大数量。
如果您对使用成本有要求,可以设置该值,确保扩容的节点数量不超出预期。
主机名前缀
节点主机名的开头字符,用以标记区分节点。
主机名后缀
节点主机名的结尾字符,用以标记区分节点。
主机RAM角色
为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。
建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。
确认配置信息无误,然后单击保存。
伸缩策略说明
如果队列中配置了多个实例规格,自动伸缩将按照实例规格的配置顺序,并基于实例的库存以及作业的任务数和GPU数,自动请求资源进行扩容。例如,当前排队作业需要单节点具备16核,队列分别配置8、16和32核时,自动伸缩将会自动选择16核的实例规格进行扩容,但如果16核实例规格没有库存,自动伸缩将会选择32核的实例规格进行扩容。
相关文档
配置自动伸缩后,建议您检查监控集群的健康状态和资源使用情况,以评估自动伸缩参数的合理性。更多信息,请参见查看监控信息。