管理队列

E-HPC集群支持对运行不同作业或执行不同任务的计算节点进行分类,以实现资源的高效管理。通过对计算节点进行队列分组,可以更灵活地筛选和调度节点,从而优化作业执行效率。本文介绍如何使用队列分组管理计算节点,包括创建和删除队列,以及编辑队列配置。

说明

队列在资源监控中是一个重要的维度,您可以通过监控页面以队列为维度,查看队列节点整体的负载与性能。更多信息,请参见查看监控信息

前提条件

  • 集群状态处于运行中

  • 执行删除队列操作时,队列中没有计算节点。

创建队列

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 队列

  3. 单击创建队列,在创建队列页面填写对应参数。

    配置项说明如下:

    • 基本设置

      配置项

      说明

      队列名称

      填写队列名称,需满足以下条件:

      • 字符长度:1~15个字符。

      • 允许字符:大写字母(A~Z)、小写字母(a~z)、数字(0~9)、下划线(_)。

      队列自动伸缩

      选择是否开启自动伸缩。开启后,可进一步按需选择是否开启自动扩容自动缩容

      开启自动伸缩后,系统会根据配置信息和实时负载,自动增加或者减少计算节点。

      队列节点数

      设置队列包含的节点数量。

      • 如果没有开启队列自动伸缩,请配置队列初始的计算节点数量。

      • 如果开启了队列自动伸缩,请配置队列允许的最小节点数和最大节点数。

        重要

        如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。

    • 选择队列节点配置

      如果开启了队列自动伸缩,或者没有开启队列自动伸缩但初始节点数不为0时,需配置以下信息,以便系统可以创建计算节点。

      配置项

      说明

      节点间互联

      选择节点之间网络连通方式。

      • VPC网络:节点之间通过VPC网络进行通信。

      • eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。

        说明

        仅部分节点规格支持ERI,更多信息,请参见eRDMA概述在企业级实例上配置eRDMA

      虚拟交换机

      选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。

      实例规格组

      单击添加实例规格,选择节点的规格。

      如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。

      重要

      您可以选择多个虚拟交换机和多个实例规格作为备选,避免因库存问题导致实例创建失败。创建计算节点时,系统会从第一个交换机所在可用区开始,按照实例规格顺序尝试创建,直到创建出满足所需节点数量的计算节点。最终创建成功的实例的规格可能随库存变化而不同。

    • 自动伸缩

      配置项

      说明

      伸缩策略

      选择伸缩策略。目前仅支持供应优先策略,表示会按照配置的交换机顺序,从对应可用区依次尝试创建符合规格要求的计算节点。

      单次最大伸缩节点数

      每轮扩容或缩容周期最多增加或减少的节点数量。默认为0,表示不限制最大数量。

      如果您对使用成本有要求,可以设置该值,确保扩容的节点数量不超出预期。

      主机名前缀

      节点主机名的开头字符,用以标记区分节点。

      主机名后缀

      节点主机名的结尾字符,用以标记区分节点。

      主机RAM角色

      为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。

      建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。

  4. 单击保存

    在队列列表页面单击2024-07-31_11-49-59图标进行刷新,如果目标队列存在,则表示您已成功创建。

配置队列

重要

建议您在业务空闲时执行配置队列操作,以避免对正在进行的业务造成影响。

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 队列

  3. 单击目标队列操作列下的编辑

  4. 编辑队列页面,完成以下参数配置。

    • 基本设置

      配置项

      说明

      队列自动伸缩

      队列自动伸缩默认为关闭状态,开启该功能后,根据实际业务需求选择是否开启自动扩容自动缩容

      说明

      当队列配置和全局配置中配置不一致时,以队列设置为优先。

      队列节点数

      队列允许的计算节点数量范围。

      • 最小节点数:该值会影响缩容效果,取值范围:0~1000。

      • 最大节点数:该值会影响扩容效果,取值范围:0~5000。

      重要
      • 如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。

      • 队列最大节点数不能超过集群最大节点数

    • 选择队列节点配置

      如果开启了队列自动伸缩,或者没有开启队列自动伸缩但初始节点数不为0时,需配置以下信息,以便系统可以创建计算节点。

      配置项

      说明

      节点间互联

      选择节点之间网络连通方式。

      • VPC网络:节点之间通过VPC网络进行通信。

      • eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。

        说明

        仅部分节点规格支持ERI,更多信息,请参见eRDMA概述在企业级实例上配置eRDMA

      虚拟交换机

      选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。

      实例规格组

      单击添加实例规格,选择节点的规格。

      如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。

      重要

      您可以选择多个虚拟交换机和多个实例规格作为备选,避免因库存问题导致实例创建失败。创建计算节点时,系统会从第一个交换机所在可用区开始,按照实例规格顺序尝试创建,直到创建出满足所需节点数量的计算节点。最终创建成功的实例的规格可能随库存变化而不同。

    • 自动伸缩

      配置项

      说明

      伸缩策略

      选择伸缩策略。目前仅支持供应优先策略,表示会按照配置的交换机顺序,从对应可用区依次尝试创建符合规格要求的计算节点。

      单次最大伸缩节点数

      每轮扩容或缩容周期最多增加或减少的节点数量。默认为0,表示不限制最大数量。

      如果您对使用成本有要求,可以设置该值,确保扩容的节点数量不超出预期。

      主机名前缀

      节点主机名的开头字符,用以标记区分节点。

      主机名后缀

      节点主机名的结尾字符,用以标记区分节点。

      主机RAM角色

      为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。

      建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。

  5. 单击保存

    在队列列表页面单击2024-07-31_11-49-59图标进行刷新,查看伸缩配置列中的信息,如果显示信息已变更,则表示您已成功编辑。

删除队列

重要
  • 在删除目标队列前,请确保待删除的队列中没有计算节点,否则您将无法执行删除操作。

  • 建议您在业务空闲时执行删除队列操作,以避免对正在进行的业务造成影响。

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 队列

  3. 选中待操作的队列,选择以下任一方式删除队列。

    • 删除单个队列:单击对应操作列中的删除

    • 批量删除队列:选中一个或多个队列,然后单击页面下方的批量删除

  4. 在弹出的对话框中,确认队列信息,然后单击确定

    在队列列表页面单击2024-07-31_11-49-59图标进行刷新,如果目标队列不存在,则表示您已成功删除。