DataWorks数据地图通过统一元数据中枢,实现AI资产的拓扑可视化与全生命周期管理,有效提升资产治理能效。本文为您介绍如何通过DataWorks数据地图查看AI资产。
背景信息
DataWorks数据地图集成了PAI-AI资产元数据,支持对AI的核心资产做全局检索与管理。通过统一界面,您可以高效地发现和管理这些资源,并利用血缘服务追踪数据和模型的来源、使用及演变过程。
AI资产血缘服务帮助企业全面管理和优化AI资产,提供了一种直观的方式来追踪数据和模型的生命周期。每个AI资产对象的详情页面都提供了查看血缘信息的入口,方便用户进行查看分析。
以下是AI资产血缘服务的几个主要应用场景:
AI资产治理:通过提供详细的资产血缘信息,企业可以了解AI资产的来源和使用情况。这不仅有助于提升数据和模型的质量,还能确保企业的AI实践符合合规要求,支持更为精准的数据管理和决策制定。
模型可追溯性:在Responsible AI使用的背景下,保持AI模型的透明度至关重要。AI资产血缘服务允许企业追踪模型训练的数据集、特征工程方法和参数调整过程。这种可追溯性对于满足监管要求、验证实验结果以及进行模型审计至关重要。
故障排查与优化:当AI服务出现性能问题时,资产血缘信息可以帮助快速定位问题根源。例如,如果模型的预测准确率突然下降,可能是由于上游数据处理发生了变化。通过血缘图,企业能够迅速识别并解决这些问题。
资源利用率提升:了解任务之间的依赖关系使企业能够更合理地分配计算资源,避免重复计算,节省成本。同时,在大规模实验中,通过血缘信息了解任务和数据之间的依赖关系,企业可以识别出哪些任务可以并行执行,从而实现更高效的资源利用和处理能力。
提升协作效率:在大型组织中,多个团队可能会共享同一套基础设施进行研究。清晰的任务血缘信息可以促进跨团队协作,加速创新过程。
前提条件
已创建参加新版数据开发的工作空间。您需要根据需求选择以下版本:
创建PAI工作空间的租户支持搜索查看对应类型的AI资产,您需在创建工作空间时勾选创建同名AI工作空间。
DataWorks标准版:对于常规的AI资产血缘服务,您需要开通DataWorks标准版。
DataWorks专业版:如果您需要使用DLC模型训练任务和工作流任务的血缘上报能力,则需要开通DataWorks专业版。
支持的AI资产
DataWorks支持您在数据地图中搜索和查看以下AI资产的元数据详情信息:
采集AI资产
当您的工作空间开启PAI服务后,数据地图将自动采集您AI工作空间中的资产信息。
搜索AI资产
通过搜索功能,您可以查看当前工作空间下所有AI资产的基本信息和血缘关系信息。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
单击左侧的菜单栏的
图标,进入搜索页面。
在页面左侧类型区域,选择您所要查看的AI资产类型,在搜索框中输入关键字查找对应AI资产信息。
查看AI资产血缘
DataWorks数据地图的搜索页面支持查看AI资产的血缘信息,并支持跳转到PAI查看AI资产详情。
数据地图中的数据集查看血缘功能提供了聚合版本的血缘信息,您可以查看该AI资产的所有版本的血缘。聚合版本的血缘整合了多个版本的信息,支持单独查看某个版本的血缘或查看所有版本的血缘。
数据集血缘
血缘产生与上报
通过以下方式生成数据集或对数据集进行操作时,系统将自动触发血缘信息的生成与上报。
方式一:将存储路径注册为数据集
将存储路径注册为数据集时,会产生如下结构的数据血缘信息。系统将自动上报以下血缘信息。
数据来源 | 相关说明 |
当注册数据集的数据来源于对象存储(OSS)服务时,会产生一条从OSS到数据集的血缘信息。 | |
|
方式二:将数据表注册为数据集
当注册数据集的数据来源于MaxCompute表时,会产生一条从MaxCompute表到数据集的血缘信息。血缘信息结构如下:
如果在DataWorks中基于MaxCompute计算引擎进行生产环境的数据分析任务,并且输入/输出是MaxCompute表、OSS路径,该血缘也可以在PAI血缘信息看板中查看和分析。
例如,用户通过多次SQL任务生成了一个MaxCompute表,并将该表注册为PAI数据集,那么从这个数据集的血缘信息中可以追溯到生成该表的所有相关SQL任务。
方式三:对数据集进行标注
在智能标注iTAG对数据集进行标注时,当数据标注任务创建成功,系统将自动上报以下血缘信息。
查看数据集血缘
您可通过以下入口查看数据集血缘。
入口一:通过数据地图查看数据集血缘
您可以在数据地图中查看数据集血缘信息。具体步骤如下:
进入数据集列表页。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
单击左侧的菜单栏的
图标,进入搜索页面。
在页面左侧的类型区域选择数据集,通过选择筛选条件区域中的AI数据集类型、工作空间等信息,获取您所需查看的数据集列表。
查看数据集血缘。
在数据集列表中,找到具体的数据集,然后单击右侧的查看血缘来查看其血缘关系信息。
进入数据集血缘详情页,您可进行以下操作:
血缘时效范围:在区域①选择血缘时效范围,查看最近几天的数据集的相应血缘关系。
数据集版本:在区域②切换数据集版本,查看相应版本的血缘关系。
其他操作:右键单击数据集,在弹出的菜单中选择查看详情(前往PAI查看数据集详情信息)或查看血缘等操作。
入口二:通过PAI查看数据集血缘
在PAI中,您可以在数据集指定版本的详情区域查看其血缘信息。具体步骤如下:
登录PAI控制台,切换至目标地域后,在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。
在左侧导航栏中选择
。找到自定义数据集页签下的基础数据集中您所创建的数据集名称。
单击数据集名称,在指定版本详情模块单击查看血缘,即可进入PAI血缘分析页面查看数据集当前版本血缘信息。
说明在PAI血缘分析页面,右键单击血缘链路中的任一节点,选择查看血缘,即可前往数据地图查看该节点的上下游相关链路血缘信息。
AI模型血缘
血缘产生与上报
通过以下方式生成AI模型或对AI模型进行操作时,系统将自动触发血缘信息的生成与上报。
方式一:执行模型训练任务
在Model Gallery提交的模型训练任务执行成功后,会产生一条模型与训练任务的血缘信息。系统将自动上报以下血缘信息。
方式二:注册模型
在模型管理页面注册模型后,会产生一条从模型存储路径到模型的血缘信息。系统将自动上报以下血缘信息。
方式三:部署模型服务
将注册好的模型部署到EAS服务后,会产生一条从模型到模型服务的血缘关系。系统将自动上报以下血缘信息。
查看AI模型血缘
您可通过以下入口查看AI模型血缘。
入口一:通过数据地图查看AI模型血缘
您可以在数据地图中查看AI模型血缘信息。具体步骤如下:
进入AI模型列表页。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
单击左侧的菜单栏的
图标,进入搜索页面。
在页面左侧的类型区域选择AI模型,通过选择筛选条件区域中的工作空间信息,获取您所需查看的AI模型列表。
查看AI模型血缘。
在AI模型列表中找到具体的AI模型,然后单击右侧的查看血缘来查看其血缘关系信息。
进入AI模型血缘详情页,您可进行以下操作:
血缘时效范围:在区域①选择血缘时效范围,查看最近几天的AI模型的相应血缘关系。
AI模型版本:在区域②切换AI模型版本,查看相应版本的血缘关系。
其他操作:右键单击AI模型,在弹出的菜单中选择查看详情(前往PAI查看AI模型详情信息)或查看血缘等操作。
入口二:通过PAI查看AI模型血缘
在PAI中,您可以在AI模型指定版本的详情区域查看其血缘信息。具体步骤如下:
登录PAI控制台,切换至目标地域后,在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。
在左侧导航栏中选择
。找到模型页面中您所注册的模型。
单击最新版本号,进入模型版本信息页面。
在版本概览中单击查看血缘,即可进入PAI血缘分析页面查看AI模型当前版本的血缘信息。
说明在PAI血缘分析页面,右键单击血缘链路中的任一节点,选择查看血缘,即可前往数据地图查看该节点的上下游相关链路血缘信息。
算法任务血缘
血缘产生与上报
通过以下方式执行相关任务时,系统将自动触发血缘信息的生成与上报。
在分布式训练DLC提交的任务中,您需要通过引入SDK的方式手动上报血缘信息,并根据实际任务情况配置输入和输出。该方案适合技术能力较强且业务成熟的用户,否则可能会影响血缘信息的准确性。如有需要,请联系您的商务经理添加白名单使用,详情可参见模型训练任务。
方式一:执行训练任务(算法组件任务)
在Model Gallery提交的模型训练任务执行成功后,会产生一条模型与训练任务的血缘信息。系统将自动上报以下血缘信息。
方式二:执行工作流任务
在PAI创建的工作流任务执行成功后,会产生输入表存储路径、输出模型/输出数据集与PAIFlow任务的血缘关系。
通过以下方式执行的PAI工作流任务,其生成的血缘关系会被自动采集并上报:
使用PAIFlow OpenAPI提交的任务,详情请参见API概览。
在Designer中手动执行的任务,详情请参见构建与调试模型。
在DataWorks周期性调度中定期触发执行的任务,详情请参见使用DataWorks离线调度Designer工作流。
方式三:执行分布式训练任务
在创建并运行分布式训练任务时,会产生输入表存储路径、输出模型/输出数据集与DLC任务的血缘关系。在分布式训练DLC提交的任务中,您可以手动上报血缘信息。
该方案适合技术能力较强且业务成熟的用户,否则可能会影响血缘信息的准确性。
查看算法任务血缘
您可通过以下入口查看算法任务血缘。
入口一:通过数据地图查看算法任务血缘
数据地图中的算法任务血缘功能支持查看该任务的血缘信息。您可以通过以下操作进行查看:
进入算法任务列表页。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
单击左侧的菜单栏的
图标,进入搜索页面。
在页面左侧的类型区域选择算法任务,通过选择筛选条件区域中的工作空间信息,获取您所需查看的算法任务列表。
查看算法任务血缘。
在算法任务列表中找到具体的算法任务,然后单击右侧的查看血缘来查看其血缘关系信息。
进入算法任务血缘详情页,您可进行以下操作:
血缘时效范围:选择血缘时效范围,查看最近几天的算法任务的相应血缘关系。
其他操作:右键单击算法任务,在弹出的菜单中选择查看详情(前往PAI查看算法任务详情信息)或查看血缘等操作。
入口二:通过PAI查看算法任务血缘
在PAI中,您可以在算法任务详情信息的基本信息区域查看其血缘信息。具体步骤如下:
登录PAI控制台,切换至目标地域后,在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。
在左侧导航栏中选择
。找到任务页面中您创建的算法任务所在页签(分布式页签(DLC)、算法组件任务或工作流任务页签)。
单击任务名称,进入任务详情页。
在基本信息中单击查看血缘,即可进入PAI血缘分析页面查看算法任务的血缘信息。
说明在PAI血缘分析页面,右键单击血缘链路中的任一节点,选择查看血缘,即可前往数据地图查看该节点的上下游相关链路血缘信息。
模型服务血缘
血缘产生与上报
将已注册的模型部署到EAS服务后,系统将自动建立模型与模型服务间的血缘关系并上报相关血缘信息。
查看模型服务血缘
您可通过以下入口查看模型服务血缘。
入口一:通过数据地图查看模型服务血缘
数据地图中的模型服务血缘功能支持查看该模型服务的血缘信息。您可以通过以下操作进行查看:
进入模型服务页。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
单击左侧的菜单栏的
图标,进入搜索页面。
在页面左侧的类型区域选择模型服务,通过选择筛选条件区域中的任务状态和资源组名称信息,获取您所需查看的模型服务列表。
查看模型服务血缘。
在模型服务列表中找到具体的模型服务,然后单击右侧的查看血缘来查看其血缘关系信息。
进入模型服务血缘详情页,您可进行以下操作:
血缘时效范围:选择血缘时效范围,查看最近几天的模型服务的相应血缘关系。
其他操作:右键单击模型服务,在弹出的菜单中选择查看详情(前往PAI查看模型服务详情信息)或查看血缘等操作。
入口二:通过PAI查看模型服务血缘
在PAI中,您可以在模型服务详情信息的基本信息区域查看其血缘信息。
登录PAI控制台,切换至目标地域后,在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。
在左侧导航栏中选择
。找到模型在线服务 (EAS)页面您创建的模型推理服务页签。
单击任务名称,进入任务概览页。
在基本信息区域单击查看血缘,即可进入PAI血缘分析页面查看模型服务的血缘信息。
说明在PAI血缘分析页面,右键单击血缘链路中的任一节点,选择查看血缘,即可前往数据地图查看该节点的上下游相关链路血缘信息。