文档

模型部署及训练

更新时间:

快速开始预置了多种预训练模型。您可以基于预训练模型快速上手并使用PAI的训练和部署功能。本文为您介绍如何在快速开始中查找适合您业务需求的模型、部署和调试模型、微调训练模型。

前提条件

如果您需要对模型进行微调训练或增量训练,则需要创建OSS Bucket存储空间。具体操作请参见控制台创建存储空间

使用费用

快速开始本身不收费,但使用快速开始进行模型部署和训练时需要收取EAS部署费用和DLC的训练费用,计费详情请参见EAS计费说明通用计算资源计费说明

说明

模型部署和训练时支持使用公共资源。

查找适合业务的模型

快速开始提供了丰富多样的模型帮助您解决实际应用场景中的业务问题。您可以参考以下内容来帮助您快速找到最适合自己业务的模型:

  • 根据需要的领域及任务查找模型。

  • 大多数模型会标注该模型所使用的预训练数据集。预训练数据集和实际使用场景越接近,直接部署和微调训练效果就会越好。您可以在模型详情页面获取更多关于该模型预训练数据集的信息。

  • 一般来说,参数量越大的模型效果会更好,但相应的模型服务运行时产生的费用和微调训练所需要的数据量都会更多。

查找模型的具体操作步骤如下:

  1. 进入快速开始页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在左侧导航栏单击快速开始,进入快速开始页面。

  2. 查找适合业务的模型。

    • 在快速开始首页,单击快速开始提供的模型分类信息,直接进入到模型列表中,根据模型描述信息进行查看。

      image

    • 在快速开始首页,您也可以通过快速开始的搜索栏进行搜索,来快速找到您需要的模型。

      image

    • 参照下图操作指引,在模型详情页面中,根据具体模型的相关介绍,包括模型基本信息、模型支持的训练部署数据格式和模型效果等内容,来选择适合自己业务场景的模型。

      image

后续,您可以直接部署选择好的模型,并进行在线调试,验证模型推理效果。具体操作,请参见部署和调试模型

部署和调试模型

查找到合适的模型后,单击模型卡片进入模型详情页面,进行部署和调试操作。以下内容以图片分类中的beit-base-patch16-224-pt22k-ft22k_image-classification模型为例。

直接部署模型服务

  1. 在模型详情页面,单击模型部署

    image

  2. (可选)配置模型服务信息和资源部署信息。

    快速开始已经预先根据模型特点预置了每个模型部署相关的模型服务信息资源部署信息。您可以使用默认配置,也可以根据业务需要对部署的相关配置进行更改。

    参数

    描述

    服务名称

    模型服务信息区域,默认已配置服务名称,您也可以参考界面提示更改服务名称,同地域内唯一。

    资源组种类

    资源部署信息区域,可选择使用公共资源组或专属资源组。

    资源配置选择

    资源部署信息区域,默认已配置指定机器型号。您可以使用默认配置,也可以选择其他实例规格(建议所选规格的算力要高于默认配置,否则机器性能可能不够)。

    image

  3. 在模型部署详情页面下方,单击部署,并在弹出的计费提醒对话框中,单击确定

    页面将自动跳转到服务详情页面。在此页面,您可以查看服务的基本信息资源信息。当状态变为运行中时,即表示服务部署成功。

在线调试模型服务

您可以在服务详情页面的在线预测区域输入请求数据,单击发送请求,根据下方输出的请求结果来验证模型服务推理效果。

image

您可以参照模型文档中的数据输入格式来构造请求数据。部分模型(例如:Stable Diffusion V1.5模型)支持在服务详情页面右侧的WEB应用区域,单击查看WEB应用,来启动WebUI应用,让您更方便的在WebUI页面,对模型进行推理验证。

如果预训练数据集和您的实际业务场景不完全匹配,在实际应用中模型效果可能会和理论上存在不同程度的误差。如果模型预测结果不满足您的业务需求,您可以对模型进行微调训练,获取一个更满足您具体业务应用场景需要的模型,详情请参见微调训练模型

微调训练模型

使用您自己的数据集对PAI平台中预置的模型进行微调训练,具体操作步骤如下。

  1. 在模型详情页面,单击微调训练

    image

  2. 在微调训练详情页面,配置以下参数。

    说明

    不同的模型支持配置的参数可能不同,请根据模型的实际情况进行配置。

    参数类型

    参数

    描述

    训练设置

    任务名称

    默认已配置任务名称,您也可以参考界面提示更改任务名称。

    输出路径

    选择OSS Bucket路径,用来保存训练生成的模型文件。

    说明

    如果您在工作空间详情页面配置了工作空间存储路径,这里会默认填充该路径,无需手动配置。如何配置工作空间存储路径,请参见管理工作空间

    最大运行时长

    设置任务运行的最长时长。配置完成后,后续任务运行超过最长时长后即返回,任务停止运行。

    如果保持默认配置,任务运行时长不受该参数限制。

    数据集配置

    训练数据集

    快速开始提供了默认的训练数据,如果您不使用默认数据集,需要按照模型文档中的训练数据格式准备好训练数据,然后参考以下两种方式上传训练数据。

    • OSS文件或目录

      单击image..png,选择数据集所在的OSS路径。在选择OSS目录或文件对话框中,您可以选择已有的数据文件,也可以按照以下操作步骤上传本地数据集文件。

      1. 单击上传文件

      2. 单击查看本地文件拖拽上传文件,根据提示上传本地数据文件。

    • 数据集选择

      在下拉列表中选择数据集,如果没有数据集,请单击新建数据集进行创建。如何配置参数,请参见创建及管理数据集

    验证数据集

    单击添加验证数据集。验证数据集配置方法同训练数据集

    计算资源配置

    节点数量

    当前镜像和规格的节点数量。

    节点配置

    计算节点的规格,详细的规格列表和费用请参见通用计算资源计费说明

    超参数配置

    不同的模型支持不同的超参数配置。您可以使用默认值,也可以根据您的业务需求修改参数配置。

  3. 单击训练

    页面自动跳转到任务详情页面。您可以查看训练任务的基本信息、实时状态、任务日志和模型评估效果(不同模型可能评估方式会有差异)。

训练任务运行成功后:

  • 您可以在任务详情页面的部署服务区域,单击部署来部署模型。模型部署流程与直接部署模型没有差异,详情请参见部署和调试模型

  • 您也可以在任务详情页面对该模型继续进行增量训练,详情请参见增量训练模型

增量训练模型

增量训练是在本次训练产生的模型基础上,使用新的数据集继续训练。

  • 增量训练优势

    使用增量训练可以拓展之前模型的能力,比如针对某个模型现有结果不太理想的特定场景去做进一步的训练,或是让模型更加契合新的趋势和变化。相比重新微调模型,在之前微调模型的基础上进行增量训练可以更节约成本。

  • 如何进行增量训练

    任务详情页面的增量训练区域,可以继续对现有模型进行训练。增量训练的流程和微调训练完全相同,详情请参见微调训练模型

  • 本页导读 (1)
文档反馈