模型联合训练数据安全最佳实践

更新时间:
复制为 MD 格式

简介

在大模型训练场景中,为提升模型的精确度和性能,常需要引入第三方高质量数据进行联合训练。此类训练数据往往包含敏感信息,若处理不当,易引发数据泄露等合规与业务风险。

因此,PAI 平台提供了安全合规的联合训练机制,确保在不暴露原始数据的前提下使用,实现“数据可用不可见、价值可共享不可复制”的核心目标。其核心安全机制包括:

  • 跨账号授权:数据提供者通过阿里云跨账号授权机制,将训练数据授权给模型训练者。训练数据仅限在 PAI-DLC 提供的受控沙盒环境中使用,模型训练者无法访问、下载或查看未被授权的训练数据。

  • 训练数据过滤:对训练过程中生成的日志数据进行严格过滤,防止训练数据通过日志泄露。

  • 模型导出安全扫描:在模型可导出的场景中,对待导出的模型文件进行安全扫描,检测并阻断模型中可能残留的训练数据,防止训练数据泄露。

image

前提条件

请联系您的商务经理完成以下准备工作:

  • 授权使用第三方训练数据:提供云账号UID、PAI工作空间ID、数据使用期限和次数。

  • 提供原始训练模型的信息:提供模型的基本信息(如模型结构概述、关键性能指标等),以便我们适配相应的模型安全扫描策略。

  • 确认日志输出格式:提供模型训练日志的基本信息(如训练框架等),以便我们适配相应的训练日志输出规则。

使用流程

步骤一:提交训练作业

  1. 查看数据提供者分享的数据集。登录PAI 控制台,在左上角选择目标地域和工作空间,在左侧导航栏选择AI资产管理 > 数据集,在列表中确认数据提供者分享的数据集是否可见。

    image

  2. 创建DLC任务。在左侧导航栏选择模型开发与训练 > 分布式训练(DLC),然后单击新建任务

  3. 配置DLC任务参数。关键参数配置如下,其他参数如:作业名称、镜像及资源按需配置即可

    • 数据集挂载添加自定义数据集,选择跨账号分享的数据集和自己的数据集。所有选中的数据集都需要打开只读模式,否则提交作业时会报错。

    • 模型名称必填。该名称将用于本次作业训练的模型子目录,以及训练结束后注册到模型中心的模型名称。

      image

    参数配置完成后,单击确定创建任务。

  4. 查看作业详情及训练日志。

    提交作业后查看作业详情。

    image

    查看训练日志内容。

    image

步骤二:扫描&导出模型

训练成功后,PAI平台会自动在模型中心注册一个模型,模型名称为提交作业时填写的模型名称。

  1. 在 PAI 控制台左侧导航栏,选择AI资产管理 > 模型在模型列表中找到在作业中填写的模型名称命名的模型。

    image

  2. 点击模型,进入模型详情。

    image

  3. 单击导出,填写输出配置,资源配置和超参数配置,完成模型导出。

    • model_file:需要导出的模型文件目录。

    • model_name:模型文件类型。

    image