Lindorm计算引擎RAY资源组提供分布式计算服务,支持AI负载端到端处理。该资源组兼容完整RAY计算模型及编程接口,深度融合Lindorm多模存储引擎特性,可高效完成数据预处理、训练及推理任务。本文介绍RAY资源组的开通、管理及计费方式。
RAY资源组目前处于邀测阶段,如有使用需求,请联系Lindorm技术支持(钉钉号:s0s3eg3)申请使用名额。
前提条件
计费方式
RAY资源组提供常驻运行模式,费用包含以下两部分:
开通RAY资源组
登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理。
在实例详情页的配置信息区域,单击计算引擎操作列的资源组管理。
在资源组详情页中单击创建资源组,配置以下内容:
资源组类型:选择RAY。
资源组名称:资源组的名字,仅支持小写字母和数字,且长度不超过63个字符。例如
raycg
。资源组类型:RAY资源组的运行模式,默认常驻。将RAY作业提交到指定的RAY资源组运行。在无作业运行情况下,RAY资源组以最小的资源保有量运行;有作业提交后,RAY资源组按照作业需求动态申请资源。
属性:配置RAY常驻资源组参数。
重要Ray资源组支持配置CPU、GPU 2种类型资源,当需要使用GPU资源时,可能会受到机型、库存的限制,请联系Lindorm技术支持(钉钉号:s0s3eg3)。
Head节点配置
参数名称
默认值
参数说明
HEAD_CPU
4
Head节点的CPU配额。单位:Core。
HEAD_MEMORY_GB
16
Head节点的内存配额。单位:GB。
HEAD_DISK_SIZE_GB
30
Head节点的磁盘配额。单位:GB。
HEAD_MACHINE_TYPE
空,即不使用特定机型。
Head节点的机型配置。
Worker节点配置
参数名称
默认值
参数说明
WORKER_WG_CPU
4
Worker节点的CPU配额。单位:Core。
WORKER_WG_MEMORY_GB
16
Worker节点的内存配额。单位:GB。
WORKER_WG_DISK_SIZE_GB
30
Worker节点的磁盘配额。单位:GB。
WORKER_WG_MACHINE_TYPE
空
,即不使用特定机型Worker节点的机型配置。
WORKER_WG_REPLICA
2
Worker节点初始运行副本数量。
WORKER_WG_MIN_REPLICA
WORKER_WG_REPLICA
Worker节点的最小运行副本数,当无作业运行时,以该资源配额运行。
WORKER_WG_MAX_REPLICA
WORKER_WG_REPLICA
Worker节点的最大运行副本数,当有作业运行时,能申请的最大Worker Node数量。
示例
申请RAY常驻资源组,资源配置Head节点CPU 4 Core、内存16 GB,Worker节点CPU 8 Core、内存 32GB、运行副本数量2,配置属性如下:
{ "HEAD_CPU": 4, "HEAD_MEMORY_GB": 16, "WORKER_WG_CPU": 8, "WORKER_WG_MEMORY_GB": 32, "WORKER_WG_REPLICA": 2 }
单击确定,创建RAY资源组。创建过程大约需要20分钟。
管理RAY资源组
登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理。
在实例详情页的配置信息区域,单击计算引擎操作列的资源组管理。
在资源组详情界面,将鼠标悬停在RAY资源组操作列的WebUI之上,获取资源组的WebUI地址,例如:
http://alb-57k7r581oht8rd****.cn-hangzhou.alb.aliyuncsslb.com/ray/raycg/dashboard/
。在浏览器中访问资源组的WebUI地址来查看资源组的运行状态。
在WebUI的上方导航栏,切换标签页可以依次查看作业列表(Jobs)、集群状态(Cluster)、Actor列表(Actors)、集群日志(Logs)。
在集群状态(Cluster)标签页,可查看集群中所有节点的CPU、内存、GPU、Object Store等资源的使用情况。
(可选)在资源组详情页中,您还可以删除已创建的资源组。
说明RAY资源组暂不支持修改和重启操作。