自动伸缩集群

当E-HPC集群面临计算节点资源不足或过多的问题时,您可以根据实际需求手动扩缩容集群,或者配置集群自动伸缩功能,无需手动操作即可实现扩缩容,以满足业务需求。本文介绍E-HPC伸缩集群的相关概念和功能。

手动扩缩容

在E-HPC集群中,手动扩缩容本质上就是指手动创建或删除计算节点。您可以根据实际需求手动扩容或缩容节点,以增加或减少计算节点的数量。扩容节点可以提高集群的计算能力,而缩容节点则可以减少资源浪费或节省成本。

如需了解具体操作和使用限制,请参见管理节点

自动伸缩

E-HPC集群提供自动伸缩功能,该功能基于队列维度进行调整。系统会根据集群作业的任务数和GPU数,自动扩容或缩容集群中某个队列的计算节点数量。当有大量计算任务提交时,集群可以自动增加计算节点,以加速任务的处理;而在没有任务时,集群可以自动减少计算节点,以节约能源和资源消耗。通过自动化的调整,E-HPC集群能够更加高效地应对不同工作负载的变化,从而提高整体的性能和资源利用率。

全局配置

您可以通过设置全局配置,启动集群扩缩容,并且设置集群最大节点和最大核数等条件限制。

  1. 进入集群列表页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

  2. 集群列表页面,找到待操作的集群,单击自动伸缩

  3. 在弹出的集群自动伸缩对话框中,完成集群全局配置区域的参数配置。

    配置项

    说明

    开关设置

    为集群内所有队列开启自动扩容和自动缩容。

    说明

    当队列配置和全局配置中配置不一致时,以队列设置为优先。

    扩容等待时间

    指从提交作业到系统开始扩容操作所需的预计时间。默认为2分钟。

    缩容等待时间

    指节点在没有接收到任何作业请求的情况下,持续空闲的时间阈值,超过这个时间后,系统将会自动释放该节点的资源。其中,缩容等待时间默认为4分钟。

    集群最大节点数

    该集群内可创建的最大节点数。

    集群最大核数

    该集群内可创建的最大核数。

队列自动伸缩

对于任意单个队列,您可以自定义设置队列自动伸缩配置。如需了解具体操作和使用限制,请参见自动伸缩节点