本文从管理员视角、AI开发视角及PAI产品模块三方面介绍涉及的基本概念。

管理员视角

名词描述
工作空间(WorkSpace)工作空间是PAI的顶层概念,为企业和团队提供统一的计算资源管理及人员权限管理能力,为AI开发者提供支持团队协作的全流程开发工具及AI资产管理能力。PAI工作空间和DataWorks工作空间在概念和实现上互通。

默认工作空间:默认关联常用的按量付费资源(需要同意开通),使新用户在初始情况下无需感知资源组等概念,即可快速开始开发训练流程。

云原生基础AI平台DLC(Deep Learning Containers)PAI提供的云原生基础AI平台,提供灵活、稳定、易用和高性能的机器学习训练环境。该平台支持多种算法框架、超大规模分布式深度学习任务运行及自定义算法框架。此外,DLC支持以下两种工作集群:
  • DLC全托管集群:即公共资源组和专有资源组。可以作为标准资源组,由工作空间管理员关联到工作空间中进行使用。
  • DLC半托管集群:即自运维资源组。有自己独立的Dashboard,您拥有更高的使用自由度。
资源组(Resource Group)
  • 资源组帮助您将拥有的计算资源从用途、权限、归属等维度上进行分组,实现企业内部多用户、多工作空间的计算资源隔离。
  • 资源组可以指代MaxCompute配额组、DLC集群、K8s集群、EMR集群、Flink集群、ECS集群等PAI工具模块关联的底层资源单位。
  • 阿里云账号和资源管理员可以从MaxCompute、EMR等平台购买并创建资源组,这些资源组可以被工作空间消费。
成员(Member)加入工作空间中的阿里云账号和RAM用户称为工作空间成员。同一工作空间下的成员以不同的角色在AI研发流程中协作。工作空间负责人和管理员可以编辑工作空间内的成员。
角色(Role)成员和不同权限集合之间的映射,基础角色由系统定义,更多角色您可以自己定义。系统支持以下基础角色:
  • 资源管理员:拥有购买和管理计算资源的权限,通常是企业的阿里云账号,不在PAI页面显示管理,您可以通过RAM管理权限点和操作授权。
  • 工作空间负责人:创建工作空间的人自动成为工作空间负责人,拥有编辑工作空间成员、引用资源组的权限。
  • 工作空间管理员:拥有编辑工作空间成员、管理资源组及管理工作空间内全部资产的权限。
  • 算法开发:拥有在所属工作空间中进行开发和模型训练的权限。
  • 算法运维:拥有任务优先级管理、模型发布及线上服务监控等权限。
  • 标注管理员:拥有智能标注的操作权限。
  • 访客:拥有工作空间中各种资产的只读权限。
云产品依赖(Dependencies)您完整地使用PAI所有功能,需要依赖的阿里云其他产品。通常需要阿里云账号或资源管理员预先开通并为RAM进行授权。需要依赖的阿里云其他产品包括OSS、NAS、SLS、ACR、API网关等。

AI开发视角

名词描述
数据集(DataSet)用于标注、训练、分析等的数据集合,支持您将存储在OSS、NAS、MaxCompute等存储介质中的结构化、非结构化数据或目录注册为数据集。同时,PAI支持统一管理数据集的存储、版本、数据结构等信息。
工作流(Pipeline)您构建DAG(有向无环图)用来实现组件之间上下游逻辑调度的对象,是一个静态概念。构建完成后,PAI支持对它进行重复提交运行,生成PipelineRun。
工作流草稿(PipelineDraft)您在Designer画布上操作的编辑状态的工作流对象,支持重复编辑生成不同的Pipeline。PipelineDraft提交运行生成PipelineRun。
组件(Component)您在PAI工作流和工作流草稿中编辑以及工作流任务执行的最小单元。组件可以来源于:
  • 预置组件(Build-in Component):PAI预置了基于阿里巴巴最佳实践的多类组件,涵盖从数据预处理到模型训练及预测的全流程。
  • 自定义组件(Custom Component):PAI支持您基于代码和镜像,自己定义可被工作流组合编排的组件。
节点(Node)被拖到画布上的一个组件,形成工作流中的一个节点。
工作流快照(SnapShot)PipelineDraft每次运行(包括完整运行、单节点运行、部分节点运行)时会记录完整PipelineDraft的配置信息,包括节点配置、运行参数、执行方式等,可以用于PipelineDraft的版本记录及配置回滚。
工作流任务(PipelineRun)一次工作流的任务执行。您可以通过Designer提交PipelineDraft运行,或通过SDK直接提交Pipeline运行,生成一个PipelineRun。
作业(Job)强调运行在各种计算资源中的任务。例如DLCJob,MCJob。作业(Job)与Run和PipelineRun概念相比,属于相对底层的概念。
任务(Run)一个Run指一次任务执行,兼容MLFlow中的概念,必须归属于某一个Experiment。您可以使用Run跟踪PAI上提交的训练任务,也可以在本地使用MLflow Client直接创建一次任务。
模型(Model)模型是您基于数据集和算法代码通过训练任务产出的结果,可以预测新数据。
Processor在线预测逻辑(模型加载和请求预测逻辑)的程序包,通常与模型文件一起部署,从而获得模型服务。PAI支持以下两类Processor:
  • 预置Processor:针对常用的PMML、TensorFlow等模型,EAS提供了预置的Processor。
  • 自定义Processor:如果EAS提供的预置Processor无法满足模型部署需求,您可以根据Processor的开发标准自定义Processor。
模型服务(Service)模型文件和在线预测逻辑代码部署成的常驻服务。您可以对模型服务进行创建、更新、停止、启动、扩容及缩容操作。
镜像(Image)PAI支持您将Docker镜像作为AI资产进行管理,支持以下镜像来源:
  • PAI官方镜像
  • 您通过DSW保存镜像生成的镜像
  • 您在ACR中的镜像
镜像可以用于工作流中构建自定义组件完成指定的任务,在DSW中作为环境拉起DSW实例,也可以在提交训练任务时被指定为执行环境。
实例(Instance)计算资源被启动的最小单元,包括以下实例:
  • DSW实例:Notebook实例,每个实例对应一定的计算资源,可以编辑代码、调试及训练。
  • EAS服务实例:服务进程,每个服务可以部署多个服务实例以提高能够支持的并发请求数。

PAI产品模块

名词描述
智能标注(iTAG)集成智能能力(黑盒)的数据集标注工具,有效降低标注工作量,快速获取高质量标注数据集。
可视化建模(Designer)面向AI领域的工作流设计工具,封装了丰富的机器学习算法组件,您无需代码基础,通过拖拉拽即可训练模型。
交互式建模(DSW)面向AI开发者的云端机器学习交互式开发IDE,包含Jupyterlab, VScode及Terminal。您可以基于镜像指定NAS作为存储启动DSW。
容器训练(DLC)快速提交训练任务到当前工作空间关联的计算资源中(例如DLC集群),提交后的任务详情可以在PAI任务管理模块中查看。
模型在线服务(EAS)支持大规模复杂模型的一键部署功能,实时弹性扩缩容,提供完整的运维监控体系。
AI资产管理提供包括数据集、模型、代码配置等核心AI资产的管理能力。
场景化解决方案基于PAI平台能力孵化的垂直领域解决方案集合,方便您直接应用。
AI体验中心
  • 大数据与AI体验馆:AI加大数据一体的交互式体验中心。
  • ModelHub:PAI自研成熟预训练模型的能力透出展示及功能体验。