简介
在大模型训练场景中,为提升模型的精确度和性能,常需要引入第三方高质量数据进行联合训练。此类训练数据往往包含敏感信息,若处理不当,易引发数据泄露等合规与业务风险。
因此,PAI 平台提供了安全合规的联合训练机制,确保在不暴露原始数据的前提下使用,实现“数据可用不可见、价值可共享不可复制”的核心目标。其核心安全机制包括:
跨账号授权:数据提供者通过阿里云跨账号授权机制,将训练数据授权给模型训练者。训练数据仅限在 PAI-DLC 提供的受控沙盒环境中使用,模型训练者无法访问、下载或查看未被授权的训练数据。
训练数据过滤:对训练过程中生成的日志数据进行严格过滤,防止训练数据通过日志泄露。
模型导出安全扫描:在模型可导出的场景中,对待导出的模型文件进行安全扫描,检测并阻断模型中可能残留的训练数据,防止训练数据泄露。

前提条件
请联系您的商务经理完成以下准备工作:
授权使用第三方训练数据:提供云账号UID、PAI工作空间ID、数据使用期限和次数。
提供原始训练模型的信息:提供模型的基本信息(如模型结构概述、关键性能指标等),以便我们适配相应的模型安全扫描策略。
确认日志输出格式:提供模型训练日志的基本信息(如训练框架等),以便我们适配相应的训练日志输出规则。
使用流程
步骤一:提交训练作业
查看数据提供者分享的数据集。登录PAI 控制台,在左上角选择目标地域和工作空间,在左侧导航栏选择AI资产管理 > 数据集,在列表中确认数据提供者分享的数据集是否可见。

创建DLC任务。在左侧导航栏选择模型开发与训练 > 分布式训练(DLC),然后单击新建任务。
配置DLC任务参数。关键参数配置如下,其他参数如:作业名称、镜像及资源按需配置即可。
数据集挂载:添加自定义数据集,选择跨账号分享的数据集和自己的数据集。所有选中的数据集都需要打开只读模式,否则提交作业时会报错。
模型名称:必填。该名称将用于本次作业训练的模型子目录,以及训练结束后注册到模型中心的模型名称。

参数配置完成后,单击确定创建任务。
查看作业详情及训练日志。
提交作业后查看作业详情。

查看训练日志内容。

步骤二:扫描&导出模型
训练成功后,PAI平台会自动在模型中心注册一个模型,模型名称为提交作业时填写的模型名称。
在 PAI 控制台左侧导航栏,选择AI资产管理 > 模型,在模型列表中找到在作业中填写的模型名称命名的模型。

点击模型,进入模型详情。

单击导出,填写输出配置,资源配置和超参数配置,完成模型导出。
model_file:需要导出的模型文件目录。
model_name:模型文件类型。



