创建及管理工作空间

工作空间是PAI的顶层概念,为企业和团队提供统一的计算资源管理及人员权限管理能力,为AI开发者提供支持团队协作的全流程开发工具以及AI资产管理能力。本文为您介绍如何创建和配置管理工作空间。

前提条件

开通人工智能平台PAI

使用限制

  • 仅工作空间管理员或负责人能够修改工作空间配置信息。

  • 事件通知配置中的语音电话、短信和邮件功能只支持在华东1(杭州)、华东2(上海)、华北6(乌兰察布)地域使用。

操作账号和权限要求

  • 阿里云账号(主账号):主账号可完成所有操作,无需额外授权。

  • RAM用户(子账号):子账号需要授予AliyunPAIFullAccess权限。AliyunPAIFullAccess包含PAI所有权限,请谨慎添加。推荐使用主账号进行操作。

创建工作空间

前往PAI-工作空间列表,单击新建工作空间,并进行配置:

  1. 基础信息配置,关键说明:

    • 添加成员:为工作空间添加成员及角色。您也可以暂时先忽略,等工作空间创建成功后再进行添加,详情请参见成员及角色配置

    • 工作空间默认存储:建议配置工作空间默认存储,可用于存储训练等任务过程中产出的临时数据和模型,方便统一管理。

  2. 关联资源配置,关键说明:

    • 灵骏智算资源:为用户的模型开发训练场景提供了高性能计算资源组,具备高性能、高效率、高资源利用率等核心优势,详情请参见灵骏智算资源使用指南

    • 通用计算资源:使用专属的通用计算资源进行AI开发,以提升AI开发和训练效率,详情请参见新建资源组并购买通用计算资源

    • ACS计算资源:DLC/EAS推理可直接使用容器计算服务(ACS)的资源进行任务和服务的拉起和调度,详情请参见ACS集群

    • MaxCompute资源:支持使用的MaxCompute资源为CPU资源,可用于可视化建模Designer部分算法的使用,详情请参见MaxCompute资源配额

    • Flink全托管资源:用于PAI大规模分布式模型训练,详情请参见Flink全托管资源管理

    关于更多AI计算资源详情,请参见AI计算资源

  3. 确认信息,并进入工作空间。

    进入工作空间后,左侧导航栏展示PAI的全部子产品功能,您可以根据实际需求进行AI全生命周期的开发及管理,详情请参见AI开发

    image

管理工作空间

前往工作空间详情,进入指定工作空间后,单击右上角工作空间配置

计算资源配置

查看并关联计算资源:

说明

目前不支持解除已关联的计算资源。如需要解除关联,请联系您的商务经理处理。

image

  • 灵骏智算资源:为用户的模型开发训练场景提供了高性能计算资源组,具备高性能、高效率、高资源利用率等核心优势,详情请参见灵骏智算资源使用指南

  • 通用计算资源:使用专属的通用计算资源进行AI开发,以提升AI开发和训练效率,详情请参见新建资源组并购买通用计算资源

  • ACS计算资源:DLC/EAS推理可直接使用容器计算服务(ACS)的资源进行任务和服务的拉起和调度,详情请参见ACS集群

  • MaxCompute资源:支持使用的MaxCompute资源为CPU资源,可用于可视化建模Designer部分算法的使用,详情请参见MaxCompute资源配额

  • Flink全托管资源:用于PAI大规模分布式模型训练,详情请参见Flink全托管资源管理

关于更多AI计算资源详情,请参见AI计算资源

成员及角色配置

当多个人员(RAM账号)在同一工作空间进行管理、开发、运维时,需要添加对应人员为工作空间成员并配置角色权限。PAI提供了多种角色,您可以查看角色与权限点的映射关系,根据需求授予成员不同角色以便管理。

  • 添加成员/角色

    image

    同一个RAM用户可以添加多个角色,系统支持以下角色:

    角色类型

    描述

    基础角色

    基础角色包含以下角色:

    • 管理员:拥有编辑工作空间成员、管理资源组以及管理工作空间内全部资产的权限。

    • 算法开发:拥有在所属工作空间中进行开发和模型训练的权限。

    • 算法运维:拥有任务优先级管理、模型发布及线上服务监控等权限。

    • 标注管理员:拥有智能标注的操作权限。

    • 访客:拥有工作空间中各种资产的只读权限。

    计算资源角色

    计算资源角色当前特指MaxCompute开发,即DataWorks中的开发角色,拥有MaxCompute数据开发相关权限。您可以为从PAI提交任务至MaxCompute执行的RAM用户添加该角色。

    自定义角色

    自定义角色添加入口:

    image

    权限说明:

    • 无权限:在指定产品模块中没有任何权限。

    • 只读:在指定产品模块中可查看owner为自己及公开可见的资源。

    • 可编辑运行:在指定产品模块中可编辑运行owner为自己的资源。

    • 完全控制:在指定产品模块中拥有所有资源的管理权限。

  • 修改成员角色

    image

    成员和角色关系如下:

    • 每个成员至少要拥有一个角色。

    • 不能删除负责人角色。创建工作空间的阿里云账号或RAM用户自动成为该工作空间的负责人,拥有编辑工作空间成员、引用和管理资源组、管理工作空间内全部资产的权限。

调度配置

提供了工作空间维度的资源管理和调度机制,支持管理员根据不同的业务需求和使用场景,灵活进行资源调度配置。

image

说明

在配置中,非工作空间成员是指未被管理员添加到工作空间中,但被主账号授权了对应的RAM权限,所以也能使用资源和提交任务,因此对于这部分用户也可以单独定义约束。

事件通知配置

PAI提供了工作空间维度的事件中心,您可以创建事件规则,以跟踪和监控DLC任务或工作流任务的状态,或基于AI资产管理-模型的版本准入状态变化触发下游事件。

  1. (可选)通知规则授权。

    首次创建通知规则时,需要开通EventBridge并一键授权PAIWorkSpace服务账号。具体操作如下:

    1. 开通事件总线EventBridge

      为了方便账号管理,PAI为每个工作空间自动创建了一个EventBridge的自定义总线,命名为pai-system-${工作空间名称}。您可以前往EventBridge控制台,切换到自己的地域,查看自定义总线列表并进行管理。

    2. 单击去授权,授权PAI获取访问云资源的权限。

      系统会自动创建服务关联角色AliyunServiceRoleForPAIWorkspace。关于该关联角色的更多内容,请参见附录:PAI工作空间服务关联角色

      image

    3. 使用以下代码创建自定义权限策略,并RAM用户授权

      {
        "Statement": [{
          "Effect": "Allow",
          "Action": [
            "eventbridge:CreateEventBus",
            "eventbridge:GetEventBus",
            "eventbridge:DeleteEventBus",
            "eventbridge:ListEventBuses",
            "eventbridge:CreateRule",
            "eventbridge:GetRule",
            "eventbridge:UpdateRule",
            "eventbridge:EnableRule",
            "eventbridge:DisableRule",
            "eventbridge:DeleteRule",
            "eventbridge:ListRules",
            "eventbridge:PutEvents",
            "eventbridge:UpdateTargets",
            "eventbridge:DeleteTargets",
            "eventbridge:ListTargets"
          ],
          "Resource": "acs:eventbridge:*:*:eventbus/*"
        }],
        "Version": "1"
      }
  2. 创建事件规则。

    image

    参数

    描述

    事件类型

    支持以下事件类型:

    • 工作流任务:Designer工作流任务。事件类型包含任务失败和任务结束(包含成功和失败)。

    • DLC任务:DLC任务。事件类型包含任务进程(进入派对、开始竞价、开始运行、任务失败等)、任务自动容错、任务超时(需要在调度配置中配置超时规则)、其他事件(任务被抢占、任务被手动停止等)。

    • 模型:AI资产管理中已注册的模型。事件类型包含模型版本允许上线(状态由Pending变为Approved)和模型版本状态改变(包含允许上线和不允许上线)。

    事件目标

    • 钉钉通知:您需要配置Webhook和加签参数。如何获取参数值,请参见附录:获取Webhook和密钥。配置完成后,您可以单击测试连通性,来验证配置的内容是否正确。

    • HTTP/HTTPS:仅事件类型为模型时,支持该选项。您需要配置URL参数为指定的HTTP(S)。在模型版本状态发生变化时会自动调用指定的HTTP(S)接口,但指定的接口需要按照规范模板进行解析。

    • 语音电话:仅事件类型为工作流任务或DLC任务时,支持该选项。您需要配置联系人,如果没有可选联系人,您可以进行消息接收设置

    • 短信:配置方法与语音电话相同。

    • 邮件:配置方法与语音电话相同。

    重要

    单个规则下事件目标数量默认为5,若不能满足要求,可申请配额,建议配额申请量不超过100。注意:在配置语音电话、短信、邮件时,每添加一个联系人会占用一个配额(联系人不去重累加)。例如,在短信中添加联系人Alice、Tony,在邮件中添加了Alice、Alan,则短信和邮件共占配额为4。

附录:获取Webhook和密钥

  1. 在需要接收通知的钉钉群中,按照下图操作指引,进入群机器人对话框。

    机器人

  2. 按照下图操作指引,进入添加机器人对话框。

    image

  3. 在添加机器人对话框中,配置以下参数,复制密钥,然后单击完成

    重要

    您需要将复制的密钥保存到本地,方便后续使用。

    添加机器人

  4. 添加机器人对话框中,单击复制完成

    重要

    您需要将webhook内容保存到本地,方便后续使用。

    添加机器人

步骤3和步骤4中获取的密钥和Webhook,即为事件通知配置中创建事件规则需要配置的加签Webhook内容。

存储路径配置

配置工作空间默认存储路径:

image

  • 建议配置工作空间默认存储,可用于存储训练等任务过程中产出的临时数据和模型,方便统一管理。

  • 如果Designer中也同时设置了工作流数据存储,则在运行工作流时,工作流数据存储路径将优先生效。

SLS转发配置

支持配置当前工作空间中DSW实例和DLC任务日志转发至日志服务SLS中做自定义分析:

image

参数

描述

SLS Project

日志服务中的资源管理单元,用于资源隔离和控制。如果没有可选的项目,您可以创建项目Project

LogStore

日志服务中日志数据的采集、存储和查询单元。如果没有可选的LogStore,您可以创建Logstore

转发SLS存储的模块

支持DSW实例和DLC任务日志转发。

通用配置

提供功能开关,允许用户控制DLC任务节点容器的进入权限。同时,提供了SSH连接到DSW实例的开关,以及通过公网访问DSW实例的开关。可有效提高用户对实例访问的灵活性和安全性。

image

常见问题

创建工作空间时提示“名称已经存在”

如果提示名称已经存在,而PAI的工作空间列表中没有同名工作空间,这可能是因为在DataWorks中存在一个同名工作空间。由于PAIDataWorks的工作空间在底层是互通的,建议您修改名称以确保工作空间名称的唯一性。