开通与管理

Lindorm计算引擎RAY资源组提供分布式计算服务,支持AI负载端到端处理。该资源组兼容完整RAY计算模型及编程接口,深度融合Lindorm多模存储引擎特性,可高效完成数据预处理、训练及推理任务。本文介绍RAY资源组的开通、管理及计费方式。

重要

RAY资源组目前处于邀测阶段,如有使用需求,请联系Lindorm技术支持(钉钉号:s0s3eg3)申请使用名额。

前提条件

计费方式

RAY资源组提供常驻运行模式,费用包含以下两部分:

  • 常驻运行资源费用:根据配置的Head节点和Worker节点的常驻运行资源情况以CU计费

  • 弹性资源费用:Worker节点支持根据负载弹性伸缩,弹性伸缩的Worker节点按照使用时长以CU计费

开通RAY资源组

  1. 登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理

  2. 实例详情页的配置信息区域,单击计算引擎操作列的资源组管理

    image

  3. 资源组详情页中单击创建资源组,配置以下内容:

    • 资源组类型:选择RAY

    • 资源组名称:资源组的名字,仅支持小写字母和数字,且长度不超过63个字符。例如raycg

    • 资源组类型:RAY资源组的运行模式,默认常驻。将RAY作业提交到指定的RAY资源组运行。在无作业运行情况下,RAY资源组以最小的资源保有量运行;有作业提交后,RAY资源组按照作业需求动态申请资源。

    • 属性:配置RAY常驻资源组参数。

      重要

      Ray资源组支持配置CPU、GPU 2种类型资源,当需要使用GPU资源时,可能会受到机型、库存的限制,请联系Lindorm技术支持(钉钉号:s0s3eg3)。

      Head节点配置

      参数名称

      默认值

      参数说明

      HEAD_CPU

      4

      Head节点的CPU配额。单位:Core。

      HEAD_MEMORY_GB

      16

      Head节点的内存配额。单位:GB。

      HEAD_DISK_SIZE_GB

      30

      Head节点的磁盘配额。单位:GB。

      HEAD_MACHINE_TYPE

      空,即不使用特定机型。

      Head节点的机型配置。

      Worker节点配置

      参数名称

      默认值

      参数说明

      WORKER_WG_CPU

      4

      Worker节点的CPU配额。单位:Core。

      WORKER_WG_MEMORY_GB

      16

      Worker节点的内存配额。单位:GB。

      WORKER_WG_DISK_SIZE_GB

      30

      Worker节点的磁盘配额。单位:GB。

      WORKER_WG_MACHINE_TYPE

      ,即不使用特定机型

      Worker节点的机型配置。

      WORKER_WG_REPLICA

      2

      Worker节点初始运行副本数量。

      WORKER_WG_MIN_REPLICA

      WORKER_WG_REPLICA

      Worker节点的最小运行副本数,当无作业运行时,以该资源配额运行。

      WORKER_WG_MAX_REPLICA

      WORKER_WG_REPLICA

      Worker节点的最大运行副本数,当有作业运行时,能申请的最大Worker Node数量。

      示例

      申请RAY常驻资源组,资源配置Head节点CPU 4 Core、内存16 GB,Worker节点CPU 8 Core、内存 32GB、运行副本数量2,配置属性如下:

      {
        "HEAD_CPU": 4,
        "HEAD_MEMORY_GB": 16,
        "WORKER_WG_CPU": 8,
        "WORKER_WG_MEMORY_GB": 32,
        "WORKER_WG_REPLICA": 2
      }
  4. 单击确定,创建RAY资源组。创建过程大约需要20分钟。

管理RAY资源组

  1. 登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理

  2. 实例详情页的配置信息区域,单击计算引擎操作列的资源组管理

    image

  3. 资源组详情界面,将鼠标悬停在RAY资源组操作列的WebUI之上,获取资源组的WebUI地址,例如:http://alb-57k7r581oht8rd****.cn-hangzhou.alb.aliyuncsslb.com/ray/raycg/dashboard/

  4. 在浏览器中访问资源组的WebUI地址来查看资源组的运行状态。

    image.png

    • WebUI的上方导航栏,切换标签页可以依次查看作业列表(Jobs)、集群状态(Cluster)、Actor列表(Actors)、集群日志(Logs)。

    • 在集群状态(Cluster)标签页,可查看集群中所有节点的CPU、内存、GPU、Object Store等资源的使用情况。

  5. (可选)在资源组详情页中,您还可以删除已创建的资源组。

    说明

    RAY资源组暂不支持修改和重启操作。