机器学习PAI的基本概念-人工智能平台 PAI(PAI)-阿里云帮助中心

文档备案控制台

PAI涉及工作空间、资源组、数据集、模型等概念。了解这些概念有助于您快速上手PAI的资源管理和AI开发流程。

管理员视角

名词	描述
工作空间（WorkSpace）	工作空间是PAI的顶层概念，用于统一管理计算资源和人员权限，并为AI开发者提供团队协作的全流程开发工具和AI资产管理能力。PAI工作空间与DataWorks工作空间互通，在PAI创建的工作空间也会出现在DataWorks工作空间列表中。默认工作空间：默认关联常用的按量付费资源（需要同意开通），使新用户在初始情况下无需了解资源组等概念，即可快速开始开发和训练流程。
云原生基础AI平台DLC（Deep Learning Containers）	PAI提供的云原生基础AI平台，提供灵活、稳定、易用和高性能的机器学习训练环境。DLC支持多种算法框架、超大规模分布式深度学习任务及自定义算法框架，并提供以下两种工作集群： DLC全托管集群：即公共资源组和专有资源组。可以作为标准资源组，由工作空间管理员关联到工作空间中使用。 DLC半托管集群：即自运维资源组。有自己独立的Dashboard，您拥有更高的使用自由度。
资源组（Resource Group）	资源组将计算资源按用途、权限和归属分组，实现企业内部多用户、多工作空间的资源隔离。资源组可以指代MaxCompute配额组、DLC集群、K8s集群、EMR集群、Flink集群、ECS集群等PAI工具模块关联的底层资源单位。阿里云账号和资源管理员可以从MaxCompute、EMR等平台购买并创建资源组，这些资源组可以被工作空间消费。
成员（Member）	加入工作空间的阿里云账号和RAM用户被称为工作空间成员。在AI研发流程中，同一工作空间下的成员以不同的角色协作。工作空间的负责人和管理员可以编辑工作空间内的成员。
角色（Role）	角色将成员与权限集合关联。基础角色由系统预定义，您也可以自定义角色。系统支持以下基础角色：资源管理员：拥有购买和管理计算资源的权限，通常是企业的阿里云账号，不在PAI页面显示管理，您可以通过RAM管理权限点和操作授权。工作空间负责人：创建工作空间的人自动成为工作空间负责人，拥有编辑工作空间成员、引用资源组的权限。工作空间管理员：拥有编辑工作空间成员、管理资源组及管理工作空间内全部资产的权限。算法开发：拥有在所属工作空间中进行开发和模型训练的权限。算法运维：拥有任务优先级管理、模型发布及线上服务监控等权限。标注管理员：拥有智能标注的操作权限。访客：拥有工作空间中各种资产的只读权限。
云产品依赖（Dependencies）	要充分使用PAI的所有功能，需要依赖阿里云的其他产品，包括OSS、NAS、SLS、ACR、API网关等。通常需要阿里云账号或资源管理员预先开通这些产品并授权RAM用户。

AI开发视角

名词	描述
数据集（DataSet）	用于标注、训练、分析等的数据集合。您可以将存储在OSS、NAS、MaxCompute等存储介质中的结构化、非结构化数据或目录注册为数据集，并统一管理其存储、版本、数据结构等信息。
工作流（Pipeline）	用DAG（有向无环图）定义组件之间上下游调度逻辑的对象，是一个静态概念。工作流构建完成后，可重复提交运行，每次运行生成一个PipelineRun。
工作流草稿（PipelineDraft）	您在Designer画布上操作的编辑状态的工作流对象，支持重复编辑以生成不同的Pipeline。PipelineDraft提交运行后会生成PipelineRun。
组件（Component）	工作流和工作流草稿中编辑及执行的最小单元。组件来源包括：预置组件（Built-in Component）：PAI预置了基于阿里巴巴最佳实践的多类组件，涵盖从数据预处理到模型训练及预测的全流程。自定义组件（Custom Component）：PAI支持您基于代码和镜像，自己定义可被工作流组合编排的组件。
节点（Node）	被拖到画布上的一个组件，形成工作流中的一个节点。
工作流快照（SnapShot）	每次运行PipelineDraft（包括完整运行、单节点运行、部分节点运行），系统都会记录完整的配置信息，包括节点配置、运行参数、执行方式等。快照可用于版本记录和配置回滚。
工作流任务（PipelineRun）	一次工作流的任务执行。您可以通过Designer提交PipelineDraft运行，或通过SDK直接提交Pipeline运行，生成一个PipelineRun。
作业（Job）	运行在计算资源中的任务，例如用户提交至分布式训练DLC（Deep Learning Containers）的训练任务。任务运行的资源环境归属用户。
运行（Run）	一个Run指一次任务执行，兼容MLFlow中的概念，必须归属于某一个Experiment。您可以使用Run跟踪PAI上提交的训练任务，也可以在本地使用MLflow Client直接创建一次任务。一个Run中可包含多个Job。
模型（Model）	模型是您基于数据集和算法代码通过训练任务产出的结果，可以预测新数据。
Processor	在线预测逻辑（模型加载和请求预测逻辑）的程序包，通常与模型文件一起部署，从而获得模型服务。PAI支持以下两类Processor：预置Processor：针对常用的PMML、TensorFlow等模型，EAS提供了预置的Processor。自定义Processor：如果EAS提供的预置Processor无法满足模型部署需求，您可以根据Processor的开发标准自定义Processor。
模型服务（Service）	模型文件和在线预测逻辑代码部署成的常驻服务。您可以创建、更新、停止、启动、扩容和缩容模型服务。
镜像（Image）	PAI支持将Docker镜像作为AI资产管理，支持以下镜像来源： PAI官方镜像您通过DSW保存镜像生成的镜像您在ACR中的镜像镜像可用于工作流中构建自定义组件、在DSW中作为环境启动实例，也可以在提交训练任务时指定为执行环境。
实例（Instance）	计算资源启动的最小单元，包括以下类型： DSW实例：Notebook实例，每个实例对应一定的计算资源，可以编辑代码、调试及训练。实例资源环境归属用户。 EAS服务实例：每个服务可以部署一个或多个服务实例以提高支持的并发请求数。实例资源环境归属用户。

PAI产品模块

名词	描述
智能标注（iTAG）	集成智能能力（黑盒）的数据集标注工具，有效降低标注工作量，快速获取高质量的标注数据集。
可视化建模（Designer）	面向AI领域的可视化工作流设计工具，内置丰富的机器学习算法组件。您无需编写代码，通过拖拉拽即可训练模型。
交互式建模（DSW）	面向AI开发者的云端机器学习交互式开发IDE，包含Notebook、VSCode及Terminal。您可以基于镜像指定NAS作为存储启动DSW。
容器训练（DLC）	将训练任务提交到工作空间关联的计算资源（例如通用计算资源）中运行。提交后可在PAI任务管理模块中查看任务详情。
模型在线服务（EAS）	支持大规模复杂模型的一键部署功能，实时弹性扩缩容，并提供完整的运维监控体系。
AI资产管理	提供包括数据集、模型、代码配置等核心AI资产的管理能力。
场景化解决方案	基于PAI平台能力孵化的垂直领域解决方案集合，方便您直接应用。

上一篇：产品架构下一篇：地域和可用区

该文章对您有帮助吗？