当E-HPC集群面临计算节点资源不足或过多的问题时,您可以根据实际需求手动扩缩容集群,或者配置集群自动伸缩功能,无需手动操作即可实现扩缩容,以满足业务需求。本文介绍E-HPC伸缩集群的相关概念和功能。
手动扩缩容
在E-HPC集群中,手动扩缩容本质上就是指手动创建或删除计算节点。您可以根据实际需求手动扩容或缩容节点,以增加或减少计算节点的数量。扩容节点可以提高集群的计算能力,而缩容节点则可以减少资源浪费或节省成本。
如需了解具体操作和使用限制,请参见管理节点。
自动伸缩
E-HPC集群提供自动伸缩功能,该功能基于队列维度进行调整。系统会根据集群作业的任务数和GPU数,自动扩容或缩容集群中某个队列的计算节点数量。当有大量计算任务提交时,集群可以自动增加计算节点,以加速任务的处理;而在没有任务时,集群可以自动减少计算节点,以节约能源和资源消耗。通过自动化的调整,E-HPC集群能够更加高效地应对不同工作负载的变化,从而提高整体的性能和资源利用率。
全局配置
您可以通过设置全局配置,启动集群扩缩容,并且设置集群最大节点和最大核数等条件限制。
进入集群列表页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,找到待操作的集群,单击自动伸缩。
在弹出的集群自动伸缩对话框中,完成集群全局配置区域的参数配置。
配置项
说明
开关设置
为集群内所有队列开启自动扩容和自动缩容。
说明当队列配置和全局配置中配置不一致时,以队列设置为优先。
扩容等待时间
指从提交作业到系统开始扩容操作所需的预计时间。默认为2分钟。
缩容等待时间
指节点在没有接收到任何作业请求的情况下,持续空闲的时间阈值,超过这个时间后,系统将会自动释放该节点的资源。其中,缩容等待时间默认为4分钟。
集群最大节点数
该集群内可创建的最大节点数。
集群最大核数
该集群内可创建的最大核数。
队列自动伸缩
对于任意单个队列,您可以自定义设置队列自动伸缩配置。如需了解具体操作和使用限制,请参见自动伸缩节点。