工作空间是PAI的顶层概念,为企业和团队提供统一的计算资源管理及人员权限管理能力,为AI开发者提供支持团队协作的全流程开发工具以及AI资产管理能力。本文为您介绍如何创建和配置管理工作空间。
前提条件
使用限制
仅工作空间管理员或负责人能够修改工作空间配置信息。
事件通知配置中的语音电话、短信和邮件功能只支持在华东1(杭州)、华东2(上海)、华北6(乌兰察布)地域使用。
操作账号和权限要求
阿里云账号(主账号):主账号可完成所有操作,无需额外授权。
RAM用户(子账号):子账号需要授予AliyunPAIFullAccess权限。AliyunPAIFullAccess包含PAI所有权限,请谨慎添加。推荐使用主账号进行操作。
创建工作空间
前往PAI-工作空间列表,单击新建工作空间,并进行配置:
基础信息配置,关键说明:
添加成员:为工作空间添加成员及角色。您也可以暂时先忽略,等工作空间创建成功后再进行添加,详情请参见成员及角色配置。
工作空间默认存储:建议配置工作空间默认存储,可用于存储训练等任务过程中产出的临时数据和模型,方便统一管理。
关联资源配置,关键说明:
灵骏智算资源:为用户的模型开发训练场景提供了高性能计算资源组,具备高性能、高效率、高资源利用率等核心优势,详情请参见灵骏智算资源使用指南。
通用计算资源:使用专属的通用计算资源进行AI开发,以提升AI开发和训练效率,详情请参见新建资源组并购买通用计算资源。
ACS计算资源:DLC/EAS推理可直接使用容器计算服务(ACS)的资源进行任务和服务的拉起和调度,详情请参见ACS集群。
MaxCompute资源:支持使用的MaxCompute资源为CPU资源,可用于可视化建模Designer部分算法的使用,详情请参见MaxCompute资源配额。
Flink全托管资源:用于PAI大规模分布式模型训练,详情请参见Flink全托管资源管理。
关于更多AI计算资源详情,请参见AI计算资源。
确认信息,并进入工作空间。
进入工作空间后,左侧导航栏展示PAI的全部子产品功能,您可以根据实际需求进行AI全生命周期的开发及管理,详情请参见AI开发。
管理工作空间
前往工作空间详情,进入指定工作空间后,单击右上角工作空间配置:
计算资源配置
查看并关联计算资源:
目前不支持解除已关联的计算资源。如需要解除关联,请联系您的商务经理处理。
灵骏智算资源:为用户的模型开发训练场景提供了高性能计算资源组,具备高性能、高效率、高资源利用率等核心优势,详情请参见灵骏智算资源使用指南。
通用计算资源:使用专属的通用计算资源进行AI开发,以提升AI开发和训练效率,详情请参见新建资源组并购买通用计算资源。
ACS计算资源:DLC/EAS推理可直接使用容器计算服务(ACS)的资源进行任务和服务的拉起和调度,详情请参见ACS集群。
MaxCompute资源:支持使用的MaxCompute资源为CPU资源,可用于可视化建模Designer部分算法的使用,详情请参见MaxCompute资源配额。
Flink全托管资源:用于PAI大规模分布式模型训练,详情请参见Flink全托管资源管理。
关于更多AI计算资源详情,请参见AI计算资源。
成员及角色配置
当多个人员(RAM账号)在同一工作空间进行管理、开发、运维时,需要添加对应人员为工作空间成员并配置角色权限。PAI提供了多种角色,您可以查看角色与权限点的映射关系,根据需求授予成员不同角色以便管理。
添加成员/角色
同一个RAM用户可以添加多个角色,系统支持以下角色:
角色类型
描述
基础角色
基础角色包含以下角色:
管理员:拥有编辑工作空间成员、管理资源组以及管理工作空间内全部资产的权限。
算法开发:拥有在所属工作空间中进行开发和模型训练的权限。
算法运维:拥有任务优先级管理、模型发布及线上服务监控等权限。
标注管理员:拥有智能标注的操作权限。
访客:拥有工作空间中各种资产的只读权限。
计算资源角色
计算资源角色当前特指MaxCompute开发,即DataWorks中的开发角色,拥有MaxCompute数据开发相关权限。您可以为从PAI提交任务至MaxCompute执行的RAM用户添加该角色。
自定义角色
自定义角色添加入口:
权限说明:
无权限:在指定产品模块中没有任何权限。
只读:在指定产品模块中可查看owner为自己及公开可见的资源。
可编辑运行:在指定产品模块中可编辑运行owner为自己的资源。
完全控制:在指定产品模块中拥有所有资源的管理权限。
修改成员角色
成员和角色关系如下:
每个成员至少要拥有一个角色。
不能删除负责人角色。创建工作空间的阿里云账号或RAM用户自动成为该工作空间的负责人,拥有编辑工作空间成员、引用和管理资源组、管理工作空间内全部资产的权限。
调度配置
提供了工作空间维度的资源管理和调度机制,支持管理员根据不同的业务需求和使用场景,灵活进行资源调度配置。
在配置中,非工作空间成员是指未被管理员添加到工作空间中,但被主账号授权了对应的RAM权限,所以也能使用资源和提交任务,因此对于这部分用户也可以单独定义约束。
事件通知配置
PAI提供了工作空间维度的事件中心,您可以创建事件规则,以跟踪和监控DLC任务或工作流任务的状态,或基于AI资产管理-模型的版本准入状态变化触发下游事件。
(可选)通知规则授权。
首次创建通知规则时,需要开通EventBridge并一键授权PAIWorkSpace服务账号。具体操作如下:
为了方便账号管理,PAI为每个工作空间自动创建了一个EventBridge的自定义总线,命名为pai-system-${工作空间名称}。您可以前往EventBridge控制台,切换到自己的地域,查看自定义总线列表并进行管理。
单击去授权,授权PAI获取访问云资源的权限。
系统会自动创建服务关联角色AliyunServiceRoleForPAIWorkspace。关于该关联角色的更多内容,请参见附录:PAI工作空间服务关联角色。
{ "Statement": [{ "Effect": "Allow", "Action": [ "eventbridge:CreateEventBus", "eventbridge:GetEventBus", "eventbridge:DeleteEventBus", "eventbridge:ListEventBuses", "eventbridge:CreateRule", "eventbridge:GetRule", "eventbridge:UpdateRule", "eventbridge:EnableRule", "eventbridge:DisableRule", "eventbridge:DeleteRule", "eventbridge:ListRules", "eventbridge:PutEvents", "eventbridge:UpdateTargets", "eventbridge:DeleteTargets", "eventbridge:ListTargets" ], "Resource": "acs:eventbridge:*:*:eventbus/*" }], "Version": "1" }
创建事件规则。
参数
描述
事件类型
支持以下事件类型:
工作流任务:Designer工作流任务。事件类型包含任务失败和任务结束(包含成功和失败)。
DLC任务:DLC任务。事件类型包含任务进程(进入派对、开始竞价、开始运行、任务失败等)、任务自动容错、任务超时(需要在调度配置中配置超时规则)、其他事件(任务被抢占、任务被手动停止等)。
模型:AI资产管理中已注册的模型。事件类型包含模型版本允许上线(状态由Pending变为Approved)和模型版本状态改变(包含允许上线和不允许上线)。
事件目标
钉钉通知:您需要配置Webhook和加签参数。如何获取参数值,请参见附录:获取Webhook和密钥。配置完成后,您可以单击测试连通性,来验证配置的内容是否正确。
HTTP/HTTPS:仅事件类型为模型时,支持该选项。您需要配置URL参数为指定的HTTP(S)。在模型版本状态发生变化时会自动调用指定的HTTP(S)接口,但指定的接口需要按照规范模板进行解析。
语音电话:仅事件类型为工作流任务或DLC任务时,支持该选项。您需要配置联系人,如果没有可选联系人,您可以进行消息接收设置。
短信:配置方法与语音电话相同。
邮件:配置方法与语音电话相同。
重要单个规则下事件目标数量默认为5,若不能满足要求,可申请配额,建议配额申请量不超过100。注意:在配置语音电话、短信、邮件时,每添加一个联系人会占用一个配额(联系人不去重累加)。例如,在短信中添加联系人Alice、Tony,在邮件中添加了Alice、Alan,则短信和邮件共占配额为4。
附录:获取Webhook和密钥
存储路径配置
配置工作空间默认存储路径:
建议配置工作空间默认存储,可用于存储训练等任务过程中产出的临时数据和模型,方便统一管理。
如果Designer中也同时设置了工作流数据存储,则在运行工作流时,工作流数据存储路径将优先生效。
SLS转发配置
支持配置当前工作空间中DSW实例和DLC任务日志转发至日志服务SLS中做自定义分析:
参数 | 描述 |
SLS Project | 日志服务中的资源管理单元,用于资源隔离和控制。如果没有可选的项目,您可以创建项目Project。 |
LogStore | 日志服务中日志数据的采集、存储和查询单元。如果没有可选的LogStore,您可以创建Logstore。 |
转发SLS存储的模块 | 支持DSW实例和DLC任务日志转发。 |
通用配置
提供功能开关,允许用户控制DLC任务节点容器的进入权限。同时,提供了SSH连接到DSW实例的开关,以及通过公网访问DSW实例的开关。可有效提高用户对实例访问的灵活性和安全性。
常见问题
创建工作空间时提示“名称已经存在”
如果提示名称已经存在,而PAI的工作空间列表中没有同名工作空间,这可能是因为在DataWorks中存在一个同名工作空间。由于PAI和DataWorks的工作空间在底层是互通的,建议您修改名称以确保工作空间名称的唯一性。