模型部署及训练

Model Gallery 提供了多种预训练模型,帮助您快速上手并利用PAI进行模型的训练和部署。本文将详细介绍如何在 Model Gallery 中查找符合您业务需求的模型,以及如何进行模型的部署、调试和微调训练。

前提条件

进行微调或增量训练前,需创建OSS Bucket存储空间,详情请参见控制台创建存储空间

使用费用

Model Gallery免费,但模型部署和训练会收取EASDLC费用,详情请参见模型在线服务(EAS)计费说明分布式训练(DLC)计费说明

查找适合业务的模型

Model Gallery提供了丰富多样的模型帮助您解决实际应用场景中的业务问题。您可以参考以下内容来帮助您快速找到最适合自己业务的模型:

  • 根据需要的领域及任务查找模型。

  • 大多数模型会标注该模型所使用的预训练数据集。预训练数据集和实际使用场景越接近,直接部署和微调训练效果就会越好。您可以在模型详情页面获取更多关于该模型预训练数据集的信息。

  • 一般来说,参数量越大的模型效果会更好,但相应的模型服务运行时产生的费用和微调训练所需要的数据量都会更多。

查找模型的具体操作步骤如下:

  1. 进入Model Gallery页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在左侧导航栏单击快速开始 > Model Gallery ,进入Model Gallery页面。

  2. 查找适合业务的模型。

    image

    后续,您可以直接部署选择好的模型,并进行在线调试,验证模型推理效果。具体操作,请参见部署和调试模型

部署和调试模型

查找到合适的模型后,单击模型卡片进入模型详情页面,进行部署和调试操作。

直接部署模型服务

  1. 在模型详情页面,单击部署

    image

  2. (可选)配置模型服务信息和资源部署信息。

    Model Gallery已经预先根据模型特点预置了每个模型部署相关的模型服务信息资源部署信息。您可以使用默认配置,也可以根据业务需要对部署的相关配置进行更改。

    参数

    描述

    服务名称

    模型服务信息区域,默认已配置服务名称,您也可以参考界面提示更改服务名称,同地域内唯一。

    资源组种类

    资源部署信息区域,可选择使用公共资源组或专属资源组。

    资源配置选择

    资源部署信息区域,默认已配置指定机器型号。您可以使用默认配置,也可以选择其他实例规格(建议所选规格的算力要高于默认配置,否则机器性能可能不够)。

    image

  3. 在模型部署详情页面下方,单击部署,并在弹出的计费提醒对话框中,单击确定

    页面将自动跳转到服务详情页面。在此页面,您可以查看服务的基本信息资源信息。当状态变为运行中时,即表示服务部署成功。

在线调试模型服务

您可以在服务详情页面的在线预测区域输入请求数据,单击发送请求,根据下方输出的请求结果来验证模型服务推理效果。

image

您可以参照模型文档中的数据输入格式来构造请求数据。部分模型(例如:Stable Diffusion V1.5模型)支持在服务详情页面右侧的WEB应用区域,单击查看WEB应用,来启动WebUI应用,让您更方便的在WebUI页面,对模型进行推理验证。

如果预训练数据集和您的实际业务场景不完全匹配,在实际应用中模型效果可能会和理论上存在不同程度的误差。如果模型预测结果不满足您的业务需求,您可以对模型进行微调训练,获取一个更满足您具体业务应用场景需要的模型,详情请参见训练模型

训练模型

使用您自己的数据集对PAI平台中预置的模型进行微调训练,具体操作步骤如下。

  1. 在模型详情页面,单击训练

    image

  2. 在微调训练详情页面,配置以下参数。

    说明

    不同的模型支持配置的参数可能不同,请根据模型的实际情况进行配置。

    参数类型

    参数

    描述

    训练方式

    SFT 监督微调

    训练方式支持:

    • 监督微调:通过指定大模型的输入输出对大模型的参数进行微调。

    • 直接偏好优化:直接优化语言模型以符合人类偏好,隐含了与RLHF算法相同的优化目标。

    两种训练方式均支持通过全参、LoRA、QLoRA进行微调。

    DPO 直接偏好优化

    训练设置

    任务名称

    默认已配置任务名称,您也可以参考界面提示更改任务名称。

    最大运行时长

    设置任务运行的最长时长。配置完成后,后续任务运行超过最长时长后即返回,任务停止运行。

    如果保持默认配置,任务运行时长不受该参数限制。

    数据集配置

    训练数据集

    Model Gallery提供了默认的训练数据,如果您不使用默认数据集,需要按照模型文档中的训练数据格式准备好训练数据,然后参考以下两种方式上传训练数据。

    • OSS文件或目录

      单击image..png,选择数据集所在的OSS路径。在选择OSS目录或文件对话框中,您可以选择已有的数据文件,也可以按照以下操作步骤上传本地数据集文件。

      1. 单击上传文件

      2. 单击查看本地文件拖拽上传文件,根据提示上传本地数据文件。

    • 数据集选择

      您可以通过数据集选择使用NAS、OSS等云存储上的数据集。在下拉列表中选择数据集,如果没有数据集,请单击新建数据集进行创建。如何配置参数,请参见创建及管理数据集

    验证数据集

    单击添加验证数据集。验证数据集配置方法同训练数据集

    输出配置

    选择输出的云存储路径,用来保存训练生成的模型、TensorBoard日志文件。

    说明
    • 如果您在工作空间详情页面配置了工作空间默认OSS存储路径,这里会默认填充该路径,无需手动配置。如何配置工作空间存储路径,请参见管理工作空间

    • 当您需要使用NAS、CPFS等文件存储保存模型时,请首先创建一个数据集对象,然后在输出路径选择相应的数据集。数据集的创建和管理请参见:创建及管理数据集

    计算资源配置

    节点数量

    当前镜像和规格的节点数量。

    资源规格

    • 计算节点的规格,详细的规格列表和费用请参见分布式训练(DLC)计费说明

    • 灵骏智算资源(当前仅支持乌兰察布和新加坡地域):对于参数量较大的LLM(例如Qwen-72B),为了能成功加载并运行模型,需要使用显存更大的GPU,此时可选择使用灵骏智算资源(例如GU100、GU108机型)。

      • 方式一:灵骏资源由于库存紧张,有企业级使用诉求可联系销售经理通过开通白名单方式使用。

      • 方式二:普通用户可通过使用竞价资源方式使用灵骏资源(如下图),最低可享受1折优惠。关于灵骏资源详情,请参见新建资源组并购买灵骏智算资源

        image

    超参数配置

    不同的模型支持不同的超参数配置。您可以使用默认值,也可以根据您的业务需求修改参数配置。

  3. 单击训练

    页面自动跳转到任务详情页面。您可以查看训练任务的基本信息、实时状态、任务日志和模型评估效果(不同模型可能评估方式会有差异)。

    说明

    训练好的模型会自动注册到AI资产-模型管理中,您可以查看或部署对应的模型,详情请参见注册及管理模型

后续操作

模型压缩

模型评测

部署和调试模型