E-HPC集群支持对运行不同作业或执行不同任务的计算节点进行分类,以实现资源的高效管理。通过对计算节点进行队列分组,可以更灵活地筛选和调度节点,从而优化作业执行效率。本文介绍如何使用队列分组管理计算节点,包括创建和删除队列,以及编辑队列配置。
队列在资源监控中是一个重要的维度,您可以通过监控页面以队列为维度,查看队列节点整体的负载与性能。更多信息,请参见查看监控信息。
前提条件
集群状态处于运行中。
执行删除队列操作时,队列中没有计算节点。
创建队列
进入集群详情页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。单击创建队列,在创建队列页面填写对应参数。
配置项说明如下:
基本设置
配置项
说明
队列名称
填写队列名称,需满足以下条件:
字符长度:1~15个字符。
允许字符:大写字母(A~Z)、小写字母(a~z)、数字(0~9)、下划线(_)。
队列自动伸缩
选择是否开启自动伸缩。开启后,可进一步按需选择是否开启自动扩容和自动缩容。
开启自动伸缩后,系统会根据配置信息和实时负载,自动增加或者减少计算节点。
队列节点数
设置队列包含的节点数量。
如果没有开启队列自动伸缩,请配置队列初始的计算节点数量。
如果开启了队列自动伸缩,请配置队列允许的最小节点数和最大节点数。
重要如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。
选择队列节点配置
如果开启了队列自动伸缩,或者没有开启队列自动伸缩但初始节点数不为0时,需配置以下信息,以便系统可以创建计算节点。
配置项
说明
节点间互联
选择节点之间网络连通方式。
VPC网络:节点之间通过VPC网络进行通信。
eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。
说明仅部分节点规格支持ERI,更多信息,请参见eRDMA概述和在企业级实例上配置eRDMA。
虚拟交换机
选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。
实例规格组
单击添加实例规格,选择节点的规格。
如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。
重要您可以选择多个虚拟交换机和多个实例规格作为备选,避免因库存问题导致实例创建失败。创建计算节点时,系统会从第一个交换机所在可用区开始,按照实例规格顺序尝试创建,直到创建出满足所需节点数量的计算节点。最终创建成功的实例的规格可能随库存变化而不同。
自动伸缩
配置项
说明
伸缩策略
选择伸缩策略。目前仅支持供应优先策略,表示会按照配置的交换机顺序,从对应可用区依次尝试创建符合规格要求的计算节点。
单次最大伸缩节点数
每轮扩容或缩容周期最多增加或减少的节点数量。默认为0,表示不限制最大数量。
如果您对使用成本有要求,可以设置该值,确保扩容的节点数量不超出预期。
主机名前缀
节点主机名的开头字符,用以标记区分节点。
主机名后缀
节点主机名的结尾字符,用以标记区分节点。
主机RAM角色
为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。
建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。
单击保存。
在队列列表页面单击图标进行刷新,如果目标队列存在,则表示您已成功创建。
配置队列
建议您在业务空闲时执行配置队列操作,以避免对正在进行的业务造成影响。
进入集群详情页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。单击目标队列操作列下的编辑。
在编辑队列页面,完成以下参数配置。
基本设置
配置项
说明
队列自动伸缩
队列自动伸缩默认为关闭状态,开启该功能后,根据实际业务需求选择是否开启自动扩容和自动缩容。
说明当队列配置和全局配置中配置不一致时,以队列设置为优先。
队列节点数
队列允许的计算节点数量范围。
最小节点数:该值会影响缩容效果,取值范围:0~1000。
最大节点数:该值会影响扩容效果,取值范围:0~5000。
重要如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。
队列最大节点数不能超过集群最大节点数。
选择队列节点配置
如果开启了队列自动伸缩,或者没有开启队列自动伸缩但初始节点数不为0时,需配置以下信息,以便系统可以创建计算节点。
配置项
说明
节点间互联
选择节点之间网络连通方式。
VPC网络:节点之间通过VPC网络进行通信。
eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。
说明仅部分节点规格支持ERI,更多信息,请参见eRDMA概述和在企业级实例上配置eRDMA。
虚拟交换机
选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。
实例规格组
单击添加实例规格,选择节点的规格。
如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。
重要您可以选择多个虚拟交换机和多个实例规格作为备选,避免因库存问题导致实例创建失败。创建计算节点时,系统会从第一个交换机所在可用区开始,按照实例规格顺序尝试创建,直到创建出满足所需节点数量的计算节点。最终创建成功的实例的规格可能随库存变化而不同。
自动伸缩
配置项
说明
伸缩策略
选择伸缩策略。目前仅支持供应优先策略,表示会按照配置的交换机顺序,从对应可用区依次尝试创建符合规格要求的计算节点。
单次最大伸缩节点数
每轮扩容或缩容周期最多增加或减少的节点数量。默认为0,表示不限制最大数量。
如果您对使用成本有要求,可以设置该值,确保扩容的节点数量不超出预期。
主机名前缀
节点主机名的开头字符,用以标记区分节点。
主机名后缀
节点主机名的结尾字符,用以标记区分节点。
主机RAM角色
为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。
建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。
单击保存。
在队列列表页面单击图标进行刷新,查看伸缩配置列中的信息,如果显示信息已变更,则表示您已成功编辑。
删除队列
在删除目标队列前,请确保待删除的队列中没有计算节点,否则您将无法执行删除操作。
建议您在业务空闲时执行删除队列操作,以避免对正在进行的业务造成影响。
进入集群详情页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。选中待操作的队列,选择以下任一方式删除队列。
删除单个队列:单击对应操作列中的删除。
批量删除队列:选中一个或多个队列,然后单击页面下方的批量删除。
在弹出的对话框中,确认队列信息,然后单击确定。
在队列列表页面单击图标进行刷新,如果目标队列不存在,则表示您已成功删除。