模型联合训练数据安全最佳实践-人工智能平台 PAI(PAI)-阿里云帮助中心

简介

在大模型训练场景中，为提升模型的精确度和性能，常需要引入第三方高质量数据进行联合训练。此类训练数据往往包含敏感信息，若处理不当，易引发数据泄露等合规与业务风险。

因此，PAI 平台提供了安全合规的联合训练机制，确保在不暴露原始数据的前提下使用，实现“数据可用不可见、价值可共享不可复制”的核心目标。其核心安全机制包括：

跨账号授权：数据提供者通过阿里云跨账号授权机制，将训练数据授权给模型训练者。训练数据仅限在 PAI-DLC 提供的受控沙盒环境中使用，模型训练者无法访问、下载或查看未被授权的训练数据。
训练数据过滤：对训练过程中生成的日志数据进行严格过滤，防止训练数据通过日志泄露。
模型导出安全扫描：在模型可导出的场景中，对待导出的模型文件进行安全扫描，检测并阻断模型中可能残留的训练数据，防止训练数据泄露。

前提条件

请联系您的商务经理完成以下准备工作：

授权使用第三方训练数据：提供云账号UID、PAI工作空间ID、数据使用期限和次数。
提供原始训练模型的信息：提供模型的基本信息（如模型结构概述、关键性能指标等），以便我们适配相应的模型安全扫描策略。
确认日志输出格式：提供模型训练日志的基本信息（如训练框架等），以便我们适配相应的训练日志输出规则。

使用流程

步骤一：提交训练作业

查看数据提供者分享的数据集。登录PAI 控制台，在左上角选择目标地域和工作空间，在左侧导航栏选择AI资产管理 > 数据集，在列表中确认数据提供者分享的数据集是否可见。
创建DLC任务。在左侧导航栏选择模型开发与训练 > 分布式训练（DLC），然后单击新建任务。
配置DLC任务参数。关键参数配置如下，其他参数如：作业名称、镜像及资源按需配置即可。
- 数据集挂载：添加自定义数据集，选择跨账号分享的数据集和自己的数据集。所有选中的数据集都需要打开只读模式，否则提交作业时会报错。
- 模型名称：必填。该名称将用于本次作业训练的模型子目录，以及训练结束后注册到模型中心的模型名称。
  
  在数据集挂载区域，挂载跨账号分享的数据集时需开启是否只读开关；挂载自有数据集时，同样建议开启只读模式。挂载了跨账号分享的数据集后，模型名称为必填项。
参数配置完成后，单击确定创建任务。
查看作业详情及训练日志。

提交作业后查看作业详情。

作业详情页的概览Tab展示以下信息：顶部时间线呈现任务各阶段（任务创建、排队、环境准备、任务运行、任务停止）及对应耗时；基本信息区显示任务名称和ID；环境信息区显示节点镜像、数据集挂载、模型配置、执行命令和环境变量；资源信息区显示资源类型（灵骏智算）、资源配额、框架（PyTorch）、优先级以及Worker节点的数量、GPU、CPU、内存配置；网络信息区显示专有网络配置、安全组和交换机。

查看训练日志内容。

在任务详情页面，顶部进度条展示任务生命周期各阶段（任务创建→排队→环境准备→任务运行→任务成功），并标注各阶段耗时与时间戳。单击日志页签，在用户日志中可查看训练配置参数（如 world_size=8、weight_decay=0.01、v_head_dim=128 等）及训练迭代进度（如 iteration 1/30、每迭代耗时、吞吐量、checkpoint 保存记录和 validation loss）。左下方实例列表显示实例状态为已成功。

步骤二：扫描&导出模型

训练成功后，PAI平台会自动在模型中心注册一个模型，模型名称为提交作业时填写的模型名称。

在 PAI 控制台左侧导航栏，选择AI资产管理 > 模型，在模型列表中找到在作业中填写的模型名称命名的模型。
点击模型，进入模型详情。

模型详情页面展示模型基本信息，包括模型名称、模型ID、最新版本、创建时间、版本数量、可见范围及模型描述。标签区域显示 PAIExportModelEnabled : true，表示模型已启用导出功能。下方模型版本列表展示各版本的版本号、创建时间、版本来源、模型地址和准入状态（如待定(Pending)），操作列提供详情、部署至EAS、导出、删除等入口。页面右上角提供新增版本、查看导出、公开模型、删除按钮。
单击导出，填写输出配置，资源配置和超参数配置，完成模型导出。
- model_file：需要导出的模型文件目录。
- model_name：模型文件类型。
资源配置中，资源类型选择灵骏智算，资源来源选择资源配额，资源配额选择灵骏智算-shared。任务资源需填写节点数量、GPU(卡数)、CPU(核数)、内存(GiB)、共享内存(GiB)。超参数中model_file填写为/workspace/Qwen3-VL-2B-Instruct，model_name填写为Qwen3-VL-2B-Instruct，完成后单击导出。