开通与管理

Lindorm计算引擎RAY资源组提供分布式计算服务,支持AI负载端到端处理。该资源组兼容完整RAY计算模型及编程接口,深度融合Lindorm多模存储引擎特性,可高效完成数据预处理、训练及推理任务。本文介绍RAY资源组的开通、管理及计费方式。

重要

RAY资源组目前处于邀测阶段,如有使用需求,请联系Lindorm技术支持(钉钉号:s0s3eg3)申请使用名额。

前提条件

计费方式

RAY资源组提供常驻运行模式,费用包含以下两部分:

  • 常驻运行资源费用:根据配置的Head节点和Worker节点的常驻运行资源情况以CU计费

  • 弹性资源费用:Worker节点支持根据负载弹性伸缩,弹性伸缩的Worker节点按照使用时长以CU计费

开通RAY资源组

  1. 登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理

  2. 实例详情页的配置信息区域,单击计算引擎操作列的资源组管理

  3. 资源组详情页中单击创建资源组,配置以下内容:

    • 资源组类型:选择RAY

    • 资源组名称:资源组的名字,仅支持小写字母和数字,且长度不超过63个字符。例如raycg

    • 运行模式:RAY 资源组的运行模式,默认常驻。常驻运行的 Ray 集群,将 RAY 作业提交到指定的 RAY 集群运行。在无作业运行情况下,RAY 集群以最小的资源保有量运行;有作业提交后,RAY 集群按照作业需求动态申请资源。

    • RAY 常驻资源组参数说明:

      • Head 节点配置。请根据您的集群规模选择 Head 节点资源规格以及磁盘空间。

      • Worker Group 数量。您可以根据业务场景选择一个或多个 Worker Group,每个 Worker Group 拥有不同的资源规格。

      • Worker Group 配置。您可以为每个 Worker Group 配置独立的资源规格、磁盘空间以及 Worker Group 内最大、最小运行副本数。

      Head 节点配置

      配置项

      参数说明

      Head资源类型

      RAY 资源组支持选择 CPU、GPU 2种类型资源。

      Head资源规格

      • CPU 资源类型,请选择您的 CPU、内存配额,比如 48G、416G、832G 等。请根据您的集群规模选择,默认为 416G。

      • GPU 资源类型,当您需要使用 GPU 资源时,受机型、库存限制,请联系Lindorm技术支持(钉钉号:s0s3eg3)。

      Head磁盘大小

      Head节点的磁盘空间,用于存储日志、内存溢出文件,以及您作业运行过程中所使用的资源文件,默认为 30G。

      Worker Group 配置

      配置项

      参数说明

      Worker资源类型

      RAY 资源组支持选择 CPU、GPU 2种类型资源。

      Worker资源规格

      • CPU 资源类型,请选择您的 CPU、内存配额,比如 48G、416G、832G 等。Worker Group 资源规格请根据您实际运行的作业需求选择,默认为 416G。

      • GPU 资源类型,当您需要使用 GPU 资源时,受机型、库存限制,请联系Lindorm技术支持(钉钉号:s0s3eg3)。

      Worker磁盘空间

      Worker节点的磁盘空间,用于存储日志、内存溢出文件,以及您作业运行过程中所使用的资源文件,默认为 30G。

      最小Worker个数

      Worker Group 内最小运行副本数。当无作业运行时,以该资源配额运行。

      最大Worker个数

      Worker Group 内最大运行副本数。当有作业运行时,能申请的最大 Worker 节点数量。

  4. 单击确定,创建RAY资源组。创建过程大约需要20分钟。

管理RAY资源组

  1. 登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理

  2. 实例详情页的配置信息区域,单击计算引擎操作列的资源组管理

  3. 资源组详情界面,将鼠标悬停在RAY资源组操作列的WebUI之上,获取资源组的WebUI地址,例如:http://alb-57k7r581oht8rd****.cn-hangzhou.alb.aliyuncsslb.com/ray/raycg/dashboard/

  4. 在浏览器中访问资源组的WebUI地址来查看资源组的运行状态。

    image.png

    • WebUI的上方导航栏,切换标签页可以依次查看作业列表(Jobs)、集群状态(Cluster)、Actor列表(Actors)、集群日志(Logs)。

    • 在集群状态(Cluster)标签页,可查看集群中所有节点的CPU、内存、GPU、Object Store等资源的使用情况。

  5. (可选)在资源组详情页中,您还可以删除已创建的资源组。

    说明

    RAY资源组暂不支持修改和重启操作。