AI资产血缘服务

AI资产血缘服务是一项关键技术工具,专注于优化企业AI资产管理。通过详细追踪和理解数据与模型的来源及演变过程,显著提升了资产的透明度和管理效率,为企业在快速发展的AI领域中提供了坚实的支持和竞争优势。

简介

AI资产血缘服务是一项关键的技术工具,旨在帮助企业全面管理和优化其AI资产。它提供了一种高效的方式来追踪和理解数据与模型的来源、使用和演变过程。AI资产血缘中的对象包括但不限于数据集(版本)、数据处理流程、训练任务、模型(版本)、模型服务等元数据。在这些资产对象的详情页面中,均提供了查看血缘的入口,用户能够轻松地进行查看和分析。

image

以下是AI资产血缘服务的几个主要应用场景:

  • AI资产治理:通过提供详细的资产血缘信息,企业可以深入了解其AI资产的来源和使用情况。这不仅有助于提升数据和模型的质量,还能确保企业的AI实践符合合规要求,支持更为精准的数据管理和决策制定。

  • 模型可追溯性:在Responsible AI的背景下,保持AI模型的透明度至关重要。AI资产血缘服务允许企业追踪模型训练的数据集、特征工程方法和参数调整过程。这种可追溯性对于满足监管要求、验证实验结果以及进行模型审计至关重要。

  • 故障排查与优化:当AI服务出现性能问题时,资产血缘信息可以帮助快速定位问题根源。例如,如果模型的预测准确率突然下降,可能是由于上游数据处理发生了变化。通过血缘图,企业能够迅速识别并解决这些问题。

  • 资源利用率提升:了解任务之间的依赖关系使企业能够更合理地分配计算资源,避免重复计算,节省成本。同时,在大规模实验中,通过血缘信息了解任务和数据之间的依赖关系,企业可以识别出哪些任务可以并行执行,从而实现更高效的资源利用和处理能力。

  • 提升协作效率:在大型组织中,多个团队可能会共享同一套基础设施进行研究。清晰的任务血缘信息促进了跨团队的沟通和知识共享,加速创新过程。

前提条件

要使用AI资产血缘服务,首先需要在DataWorks控制台开通DataWorks服务。具体要求如下:

  • DataWorks标准版:对于常规的AI资产血缘服务,您需要开通DataWorks标准版。

  • DataWorks专业版:如果您需要使用DLC模型训练任务和工作流任务的血缘上报能力,则需要开通DataWorks专业版。

更多DataWorks版本信息,请参见DataWorks各版本详解

血缘上报方式及查看入口

血缘上报是指当用户在PAI产品进行AI模型的开发、训练、部署和维护过程中,系统自动或手动地记录和生成与模型相关的各种元数据及其相互关系。具体包含以下操作:

新建数据集

数据集支持版本管理,每个版本都是独立的血缘资产对象。用户可以查看指定数据集版本的血缘信息,并查询该版本的上下游关系。

  • 血缘信息结构

    image

  • 操作入口:创建数据集

    image

  • 查看血缘入口:在数据集列表单击指定数据集名称,在指定版本详情区域查看血缘。

    image

数据预处理任务

  • 操作入口:如果在DataWorks中基于MaxCompute等大数据引擎进行了生产环境的数据分析任务,并且输入/输出是MaxCompute表、OSS路径,该血缘也可以在PAI血缘信息看板中查看和分析。例如用户通过多次SQL任务产出了一个MaxCompute表,并将这个表注册成为PAI数据集,那么从这个数据集的血缘信息中也可以继续向上追溯到对应的表产出任务。

  • 查看血缘入口:在数据集列表单击指定数据集名称,在指定版本详情区域查看血缘。

    image

数据标注任务

在数据标注iTAG中创建标注任务时,用户需要指定输入数据集。当标注任务创建成功后,系统将自动上报以下结构的血缘信息。

工作流任务

当前支持将整个工作流任务作为一个独立的任务资产对象。在Designer(PAIFlow)中提交工作流任务时,如果工作流中包含读数据表OSS数据模型注册数据集注册等组件,任务执行成功后,系统将自动上报以下结构的血缘信息。

  • 血缘信息结构

    image
  • 操作入口:创建自定义工作流

    image

    进入工作流后,根据实际业务添加相关组件。此处以添加读OSS数据、数据集注册组件为例介绍:

    image

  • 查看血缘入口:在工作流任务列表单击任务名称,在任务流基本信息区域查看血缘。

    image

    image

    image

模型训练任务

Model Gallery

Model Gallery提交的模型训练任务执行成功后,系统会自动上报如下结构的血缘信息。

  • 血缘信息结构

    image
  • 操作入口:训练模型

    image

  • 查看血缘入口:在模型列表单击模型名称,在版本列表区域单击指定版本号查看血缘。

    image

    image

DLC

在分布式训练DLC提交的任务中,用户可以手动上报血缘信息,并根据实际任务情况配置输入和输出。该方案适合技术能力较强且业务成熟的用户,否则可能会影响血缘信息的准确性。如有需要,请联系您的商务经理添加白名单使用。

注册模型

模型支持版本管理,每个版本都是独立的血缘资产对象。用户可以查看指定模型版本的血缘信息,并查询该模型的上下游关系。

  • 血缘信息结构

    image
  • 操作入口:注册模型

    image

    说明

    除了上述手动注册模型以外,在Model Gallery提交训练任务执行成功后,产出的模型会自动注册为当前工作空间中的模型资产,详情请参见Model Gallery

  • 查看血缘入口:在模型列表单击模型名称,在版本列表区域单击指定版本号查看血缘。

    image

    image

部署模型服务

模型支持版本管理,每个版本都是独立的血缘资产对象。用户可以查看指定模型版本的血缘信息,并查询该模型的上下游关系。

  • 血缘信息结构

    image
  • 操作入口:注册模型

    • AI资产-模型管理页面部署至EAS:

      image

    • 在工作空间-事件中心配置模型版本允许上线事件:

      image

      当模型准入状态从待定(Pending)变更为准入(Approved),会自动触发模型服务的更新:

      image

  • 查看血缘入口:在服务列表单击服务名称,在基本信息区域查看血缘。

    image

    image

    image

    关键说明:

    如果某个EAS服务包含多个版本,则在血缘关系中,这些版本的EAS服务将对应同一个实体对象(EAS实例)。当需要对指定版本的服务进行分析时,可以通过更新模型服务节点中的VersionId来进行定位。

相关文档

数据集管理

模型管理

管理工作流任务