配置自动伸缩

您可以通过配置集群自动伸缩,实现计算节点的动态分配,无需手动操作。此功能根据实时负载自动调整计算节点数量,既提高了集群的可用性,又降低了使用成本。本文介绍如何配置自动伸缩。

功能优势

  • 根据实时负载,自动增加计算节点,提高集群的可用性。

  • 在保证集群可用性的前提下,自动减少计算节点,降低集群成本。

  • 停止异常状态的节点,并创建相应的新节点,提高集群容错能力。

注意事项

自动伸缩服务依赖于调度器服务和域账号服务运行正常。开启自动伸缩后,管理节点需要一直保持运行中。

重要

如果管理节点需要关机或者重启,请在计算节点没有作业运行,并且自动伸缩已经释放了空闲节点后再进行操作。此时,建议您先关闭自动伸缩,在管理节点重新启动后,再开启自动伸缩。

操作步骤

  1. 进入集群列表页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

  2. 集群列表页面,找到待操作的集群,单击自动伸缩

  3. 在弹出的集群自动伸缩对话框中,完成集群全局配置区域的参数配置。

    配置项

    说明

    开关设置

    为集群内所有队列开启自动扩容和自动缩容。

    说明

    当队列配置和全局配置中配置不一致时,以队列设置为优先。

    扩容等待时间

    指从提交作业到系统开始扩容操作所需的预计时间。默认为2分钟。

    缩容等待时间

    指节点在没有接收到任何作业请求的情况下,持续空闲的时间阈值,超过这个时间后,系统将会自动释放该节点的资源。其中,缩容等待时间默认为4分钟。

    集群最大节点数

    该集群内可创建的最大节点数。

    集群最大核数

    该集群内可创建的最大核数。

  4. 计算节点与队列区域,找到待操作的队列。单击目标队列操作列中的伸缩配置,在编辑队列页面配置以下参数。

    • 基本设置

      配置项

      说明

      队列自动伸缩

      队列自动伸缩默认为关闭状态,开启该功能后,根据实际业务需求选择是否开启自动扩容自动缩容

      说明

      当队列配置和全局配置中配置不一致时,以队列设置为优先。

      队列节点数

      队列允许的计算节点数量范围。

      • 最小节点数:该值会影响缩容效果,取值范围:0~1000。

      • 最大节点数:该值会影响扩容效果,取值范围:0~5000。

      重要
      • 如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。

      • 队列最大节点数不能超过集群最大节点数

    • 选择队列节点配置

      如果开启了队列自动伸缩,或者没有开启队列自动伸缩但初始节点数不为0时,需配置以下信息,以便系统可以创建计算节点。

      配置项

      说明

      节点间互联

      选择节点之间网络连通方式。

      • VPC网络:节点之间通过VPC网络进行通信。

      • eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。

        说明

        仅部分节点规格支持ERI,更多信息,请参见eRDMA概述在企业级实例上配置eRDMA

      虚拟交换机

      选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。

      实例规格组

      单击添加实例规格,选择节点的规格。

      如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。

      重要

      您可以选择多个虚拟交换机和多个实例规格作为备选,避免因库存问题导致实例创建失败。创建计算节点时,系统会从第一个交换机所在可用区开始,按照实例规格顺序尝试创建,直到创建出满足所需节点数量的计算节点。最终创建成功的实例的规格可能随库存变化而不同。

    • 自动伸缩

      配置项

      说明

      伸缩策略

      选择伸缩策略。目前仅支持供应优先策略,表示会按照配置的交换机顺序,从对应可用区依次尝试创建符合规格要求的计算节点。

      单次最大伸缩节点数

      每轮扩容或缩容周期最多增加或减少的节点数量。默认为0,表示不限制最大数量。

      如果您对使用成本有要求,可以设置该值,确保扩容的节点数量不超出预期。

      主机名前缀

      节点主机名的开头字符,用以标记区分节点。

      主机名后缀

      节点主机名的结尾字符,用以标记区分节点。

      主机RAM角色

      为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。

      建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。

  5. 确认配置信息无误,然后单击保存

伸缩策略说明

如果队列中配置了多个实例规格,自动伸缩将按照实例规格的配置顺序,并基于实例的库存以及作业的任务数和GPU数,自动请求资源进行扩容。例如,当前排队作业需要单节点具备16核,队列分别配置8、16和32核时,自动伸缩将会自动选择16核的实例规格进行扩容,但如果16核实例规格没有库存,自动伸缩将会选择32核的实例规格进行扩容。

相关文档

配置自动伸缩后,建议您检查监控集群的健康状态和资源使用情况,以评估自动伸缩参数的合理性。更多信息,请参见查看监控信息