查看AI资产

DataWorks数据地图通过统一元数据中枢,实现AI资产的拓扑可视化与全生命周期管理,有效提升资产治理能效。本文为您介绍如何通过DataWorks数据地图查看AI资产。

背景信息

DataWorks数据地图集成了PAI-AI资产元数据,支持对AI的核心资产做全局检索与管理。通过统一界面,您可以高效地发现和管理这些资源,并利用血缘服务追踪数据和模型的来源、使用及演变过程。

AI资产血缘服务帮助企业全面管理和优化AI资产,提供了一种直观的方式来追踪数据和模型的生命周期。每个AI资产对象的详情页面都提供了查看血缘信息的入口,方便用户进行查看分析。

image

以下是AI资产血缘服务的几个主要应用场景:

  • AI资产治理:通过提供详细的资产血缘信息,企业可以了解AI资产的来源和使用情况。这不仅有助于提升数据和模型的质量,还能确保企业的AI实践符合合规要求,支持更为精准的数据管理和决策制定。

  • 模型可追溯性:在Responsible AI使用的背景下,保持AI模型的透明度至关重要。AI资产血缘服务允许企业追踪模型训练的数据集、特征工程方法和参数调整过程。这种可追溯性对于满足监管要求、验证实验结果以及进行模型审计至关重要。

  • 故障排查与优化:当AI服务出现性能问题时,资产血缘信息可以帮助快速定位问题根源。例如,如果模型的预测准确率突然下降,可能是由于上游数据处理发生了变化。通过血缘图,企业能够迅速识别并解决这些问题。

  • 资源利用率提升:了解任务之间的依赖关系使企业能够更合理地分配计算资源,避免重复计算,节省成本。同时,在大规模实验中,通过血缘信息了解任务和数据之间的依赖关系,企业可以识别出哪些任务可以并行执行,从而实现更高效的资源利用和处理能力。

  • 提升协作效率:在大型组织中,多个团队可能会共享同一套基础设施进行研究。清晰的任务血缘信息可以促进跨团队协作,加速创新过程。

前提条件

创建参加新版数据开发的工作空间。您需要根据需求选择以下版本:

说明

创建PAI工作空间的租户支持搜索查看对应类型的AI资产,您需在创建工作空间时勾选创建同名AI工作空间

  • DataWorks标准版:对于常规的AI资产血缘服务,您需要开通DataWorks标准版。

  • DataWorks专业版:如果您需要使用DLC模型训练任务和工作流任务的血缘上报能力,则需要开通DataWorks专业版。

支持的AI资产

DataWorks支持您在数据地图中搜索和查看以下AI资产的元数据详情信息:

采集AI资产

当您的工作空间开启PAI服务后,数据地图将自动采集您AI工作空间中的资产信息。

搜索AI资产

通过搜索功能,您可以查看当前工作空间下所有AI资产的基本信息和血缘关系信息。

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

  2. 单击左侧的菜单栏的image.png图标,进入搜索页面。

  3. 在页面左侧类型区域,选择您所要查看的AI资产类型,在搜索框中输入关键字查找对应AI资产信息。

查看AI资产血缘

DataWorks数据地图的搜索页面支持查看AI资产的血缘信息,并支持跳转到PAI查看AI资产详情。

说明

数据地图中的数据集查看血缘功能提供了聚合版本的血缘信息,您可以查看该AI资产的所有版本的血缘。聚合版本的血缘整合了多个版本的信息,支持单独查看某个版本的血缘或查看所有版本的血缘。

数据集血缘

血缘产生与上报

通过以下方式生成数据集或对数据集进行操作时,系统将自动触发血缘信息的生成与上报。

方式一:将存储路径注册为数据集

将存储路径注册为数据集时,会产生如下结构的数据血缘信息。系统将自动上报以下血缘信息。

image

数据来源

相关说明

对象存储(OSS)

当注册数据集的数据来源于对象存储(OSS)服务时,会产生一条从OSS到数据集的血缘信息。

文件存储

  • 当注册数据集的数据来源于文件存储(通用型NAS)文件存储(极速型NAS)服务时,会产生一条从NAS到数据集的血缘信息。

  • 当注册数据集的数据来源于文件存储(CPFS)文件存储(智算CPFS)服务时,会产生一条从CPFS到数据集的血缘信息。

方式二:将数据表注册为数据集

当注册数据集的数据来源于MaxCompute时,会产生一条从MaxCompute表到数据集的血缘信息。血缘信息结构如下:

image

如果在DataWorks中基于MaxCompute计算引擎进行生产环境的数据分析任务,并且输入/输出是MaxCompute表、OSS路径,该血缘也可以在PAI血缘信息看板中查看和分析。

例如,用户通过多次SQL任务生成了一个MaxCompute表,并将该表注册为PAI数据集,那么从这个数据集的血缘信息中可以追溯到生成该表的所有相关SQL任务。

方式三:对数据集进行标注

智能标注iTAG对数据集进行标注时,当数据标注任务创建成功,系统将自动上报以下血缘信息。

image

查看数据集血缘

您可通过以下入口查看数据集血缘。

入口一:通过数据地图查看数据集血缘

您可以在数据地图中查看数据集血缘信息。具体步骤如下:

  1. 进入数据集列表页。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

    2. 单击左侧的菜单栏的image.png图标,进入搜索页面。

    3. 在页面左侧的类型区域选择数据集,通过选择筛选条件区域中的AI数据集类型工作空间等信息,获取您所需查看的数据集列表。

  2. 查看数据集血缘。

    在数据集列表中,找到具体的数据集,然后单击右侧的查看血缘来查看其血缘关系信息。

    image

  3. 进入数据集血缘详情页,您可进行以下操作:

    • 血缘时效范围:在区域①选择血缘时效范围,查看最近几天的数据集的相应血缘关系。

    • 数据集版本:在区域②切换数据集版本,查看相应版本的血缘关系。

    • 其他操作:右键单击数据集,在弹出的菜单中选择查看详情(前往PAI查看数据集详情信息)或查看血缘等操作。

入口二:通过PAI查看数据集血缘

PAI中,您可以在数据集指定版本的详情区域查看其血缘信息。具体步骤如下:

  1. 登录PAI控制台,切换至目标地域后,在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

  2. 在左侧导航栏中选择AI资产管理 > 数据集

  3. 找到自定义数据集页签下的基础数据集中您所创建的数据集名称。

  4. 单击数据集名称,在指定版本详情模块单击查看血缘,即可进入PAI血缘分析页面查看数据集当前版本血缘信息。

    说明

    PAI血缘分析页面,右键单击血缘链路中的任一节点,选择查看血缘,即可前往数据地图查看该节点的上下游相关链路血缘信息。

AI模型血缘

血缘产生与上报

通过以下方式生成AI模型或对AI模型进行操作时,系统将自动触发血缘信息的生成与上报。

方式一:执行模型训练任务

Model Gallery提交的模型训练任务执行成功后,会产生一条模型与训练任务的血缘信息。系统将自动上报以下血缘信息。

image

方式二:注册模型

在模型管理页面注册模型后,会产生一条从模型存储路径到模型的血缘信息。系统将自动上报以下血缘信息。

image

方式三:部署模型服务

将注册好的模型部署到EAS服务后,会产生一条从模型到模型服务的血缘关系。系统将自动上报以下血缘信息。

image

查看AI模型血缘

您可通过以下入口查看AI模型血缘。

入口一:通数据地图查看AI模型血缘

您可以在数据地图中查看AI模型血缘信息。具体步骤如下:

  1. 进入AI模型列表页。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

    2. 单击左侧的菜单栏的image.png图标,进入搜索页面。

    3. 在页面左侧的类型区域选择AI模型,通过选择筛选条件区域中的工作空间信息,获取您所需查看的AI模型列表。

  2. 查看AI模型血缘。

    AI模型列表中找到具体的AI模型,然后单击右侧的查看血缘来查看其血缘关系信息。

    image

  3. 进入AI模型血缘详情页,您可进行以下操作:

    • 血缘时效范围:在区域①选择血缘时效范围,查看最近几天的AI模型的相应血缘关系。

    • AI模型版本:在区域②切换AI模型版本,查看相应版本的血缘关系。

    • 其他操作:右键单击AI模型,在弹出的菜单中选择查看详情(前往PAI查看AI模型详情信息)或查看血缘等操作。

入口二:通过PAI查看AI模型血缘

PAI中,您可以在AI模型指定版本的详情区域查看其血缘信息。具体步骤如下:

  1. 登录PAI控制台,切换至目标地域后,在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

  2. 在左侧导航栏中选择AI资产管理 > 模型

  3. 找到模型页面中您所注册的模型。

  4. 单击最新版本号,进入模型版本信息页面。

  5. 版本概览中单击查看血缘,即可进入PAI血缘分析页面查看AI模型当前版本的血缘信息。

    说明

    PAI血缘分析页面,右键单击血缘链路中的任一节点,选择查看血缘,即可前往数据地图查看该节点的上下游相关链路血缘信息。

算法任务血缘

血缘产生与上报

通过以下方式执行相关任务时,系统将自动触发血缘信息的生成与上报。

说明

在分布式训练DLC提交的任务中,您需要通过引入SDK的方式手动上报血缘信息,并根据实际任务情况配置输入和输出。该方案适合技术能力较强且业务成熟的用户,否则可能会影响血缘信息的准确性。如有需要,请联系您的商务经理添加白名单使用,详情可参见模型训练任务

方式一:执行训练任务(算法组件任务)

Model Gallery提交的模型训练任务执行成功后,会产生一条模型与训练任务的血缘信息。系统将自动上报以下血缘信息。

image

方式二:执行工作流任务

PAI创建的工作流任务执行成功后,会产生输入表存储路径、输出模型/输出数据集与PAIFlow任务的血缘关系。

image

通过以下方式执行的PAI工作流任务,其生成的血缘关系会被自动采集并上报:

方式三:执行分布式训练任务

创建并运行分布式训练任务时,会产生输入表存储路径、输出模型/输出数据集与DLC任务的血缘关系。在分布式训练DLC提交的任务中,您可以手动上报血缘信息。

image
说明

该方案适合技术能力较强且业务成熟的用户,否则可能会影响血缘信息的准确性。

查看算法任务血缘

您可通过以下入口查看算法任务血缘。

入口一:通过数据地图查看算法任务血缘

数据地图中的算法任务血缘功能支持查看该任务的血缘信息。您可以通过以下操作进行查看:

  1. 进入算法任务列表页。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

    2. 单击左侧的菜单栏的image.png图标,进入搜索页面。

    3. 在页面左侧的类型区域选择算法任务,通过选择筛选条件区域中的工作空间信息,获取您所需查看的算法任务列表。

  2. 查看算法任务血缘。

    在算法任务列表中找到具体的算法任务,然后单击右侧的查看血缘来查看其血缘关系信息。

  3. 进入算法任务血缘详情页,您可进行以下操作:

    • 血缘时效范围:选择血缘时效范围,查看最近几天的算法任务的相应血缘关系。

    • 其他操作:右键单击算法任务,在弹出的菜单中选择查看详情(前往PAI查看算法任务详情信息)或查看血缘等操作。

入口二:通过PAI查看算法任务血缘

PAI中,您可以在算法任务详情信息的基本信息区域查看其血缘信息。具体步骤如下:

  1. 登录PAI控制台,切换至目标地域后,在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

  2. 在左侧导航栏中选择AI资产管理 > 任务

  3. 找到任务页面中您创建的算法任务所在页签(分布式页签(DLC)算法组件任务工作流任务页签)。

  4. 单击任务名称,进入任务详情页。

  5. 基本信息中单击查看血缘,即可进入PAI血缘分析页面查看算法任务的血缘信息。

    说明

    PAI血缘分析页面,右键单击血缘链路中的任一节点,选择查看血缘,即可前往数据地图查看该节点的上下游相关链路血缘信息。

模型服务血缘

血缘产生与上报

将已注册的模型部署到EAS服务后,系统将自动建立模型与模型服务间的血缘关系并上报相关血缘信息。

image

查看模型服务血缘

您可通过以下入口查看模型服务血缘。

入口一:通过数据地图查看模型服务血缘

数据地图中的模型服务血缘功能支持查看该模型服务的血缘信息。您可以通过以下操作进行查看:

  1. 进入模型服务页。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

    2. 单击左侧的菜单栏的image.png图标,进入搜索页面。

    3. 在页面左侧的类型区域选择模型服务,通过选择筛选条件区域中的任务状态资源组名称信息,获取您所需查看的模型服务列表。

  2. 查看模型服务血缘。

    在模型服务列表中找到具体的模型服务,然后单击右侧的查看血缘来查看其血缘关系信息。

  3. 进入模型服务血缘详情页,您可进行以下操作:

    • 血缘时效范围:选择血缘时效范围,查看最近几天的模型服务的相应血缘关系。

    • 其他操作:右键单击模型服务,在弹出的菜单中选择查看详情(前往PAI查看模型服务详情信息)或查看血缘等操作。

入口二:通过PAI查看模型服务血缘

PAI中,您可以在模型服务详情信息的基本信息区域查看其血缘信息。

  1. 登录PAI控制台,切换至目标地域后,在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

  2. 在左侧导航栏中选择模型部署 > 模型在线服务(EAS)

  3. 找到模型在线服务 (EAS)页面您创建的模型推理服务页签。

  4. 单击任务名称,进入任务概览页。

  5. 基本信息区域单击查看血缘,即可进入PAI血缘分析页面查看模型服务的血缘信息。

    说明

    PAI血缘分析页面,右键单击血缘链路中的任一节点,选择查看血缘,即可前往数据地图查看该节点的上下游相关链路血缘信息。