文档

服务部署:控制台

更新时间:
重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

EAS支持将从开源社区下载的模型或您自己训练获得的模型部署为推理服务或AI-Web应用。针对不同方式获取的训练模型,EAS支持不同的部署方式。此外,EAS还提供了一系列针对特定场景的部署方式,您可以通过控制台快速将其部署为在线服务。本文介绍如何使用控制台方式部署及管理服务。

前提条件

已获得训练好的模型。

背景信息

您可以通过控制台部署及管理EAS

  • 控制台上传部署

    支持自定义模型部署场景化模型部署两种方式:

    • 自定义模型部署:自定义模型部署提供更灵活的部署方式,您可以通过镜像、模型、processor等方式快速进行AI-Web应用或推理服务的部署。

    • 场景化模型部署:EAS提供了多种针对特定场景的部署解决方案,包括AI绘画-SDWebUI部署、LLM大语言模型、大模型RAG对话系统、AI视频生成-ComfyUI部署、ModelScope模型部署、HuggingFace模型部署、Triton部署和TFServing部署。对于这些不同的部署场景,均提供了简易的部署方法。

  • 管理EAS

    EAS支持通过控制台方式管理已部署的模型服务,包括:查看服务详情、更新服务资源配置、更新服务版本、扩缩容等操作。

控制台上传部署

在模型在线服务页面,您可直接将训练完成的模型或开源社区模型部署为在线服务。

步骤一:进入模型在线服务页面

  1. 登录PAI控制台

  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。

  3. 在工作空间页面的左侧导航栏选择模型部署 > 模型在线服务(EAS),进入模型在线服务(EAS)页面。

步骤二:选择部署方式

  1. 推理服务页签,单击部署服务

  2. 部署服务页面,选择并单击相应的部署方式。

    部署方式

    描述

    自定义模型部署

    自定义部署

    提供更灵活的部署方式。支持通过Processor的形式,或镜像、模型、代码、运行命令和三方库的方式,将您自己的模型部署为在线服务或AI-Web应用。具体的参数配置说明,请参见自定义部署方式参数配置说明

    JSON独立部署

    根据输入的JSON文件内容来完成模型部署。具体的参数配置说明,请参见JSON独立部署方式参数配置说明

    场景化模型部署

    说明

    关于各个场景的参数配置说明,请参见场景化部署方式参数配置说明

    AI绘画-SDWebUI部署

    一键部署基于开源SDWebUI绘画的AIGC服务,提供Web应用和API调用两种部署方式,通过用户与计算资源分离实现企业级应用。

    LLM大语言模型部署

    一键部署支持WebUI和API调用的LLM应用,您可以利用LangChain框架集成企业知识库,以实现智能问答和自动化功能。通过Blade内置推理加速,实现简单的部署方式及较高性价比的推理方案。

    大模型RAG对话系统部署

    一键部署集成了大语言模型(LLM)和检索增强生成(RAG)技术的对话系统服务。适用于问答、摘要生成和依赖外部知识的自然语言处理任务。

    AI视频生成-ComfyUI部署

    一键部署基于ComfyUI和Stable Video Diffusion模型的AI视频生成服务,帮助您完成社交平台短视频内容生成、动画制作等任务。

    ModelScope模型部署

    一键部署ModelScope开源模型,快速启动模型服务。

    HuggingFace模型部署

    一键部署HuggingFace开源模型,快速启动模型服务。

    Triton部署

    利用基于Trition Server的推理服务引擎,将TensorRT、TensorFlow、PyTorch或ONNX等多种AI框架的模型一键部署为在线推理服务。

    TFServing部署

    利用基于TensorFlow Serving的推理服务引擎,将Tensorflow标准的SavedModel格式的模型一键部署为在线推理服务。

步骤三:部署服务

根据您选择的部署方式,请参考以下内容配置相应的参数。参数配置完成后,单击部署。等待一段时间,当服务状态变为运行中时,表明服务部署成功。

自定义部署方式参数配置说明

  1. 新建服务页面的模型服务信息区域,配置参数。

    • 服务名称:根据界面提示,自定义服务名称。

    • 部署方式:支持镜像部署服务镜像部署AI-Web应用模型+processor部署服务三种部署方式。

      说明

      在复杂的模型推理场景中,例如AIGC、视频处理等场景,推理耗时比较长,需要打开异步服务开关,实现异步推理服务,详情请参见部署异步推理服务。仅当部署方式选择镜像部署服务模型+processor部署服务时,支持开启异步服务。

      • 镜像部署服务:如果您想通过镜像、代码及模型挂载的方式快速进行AI推理服务的部署,则选择该部署方式。

      • 镜像部署AI-Web应用:如果您想将服务部署为一个AI-Web应用,需要启动一个WebServer,则选择该方式进行部署。

      • 模型+processor部署服务:如果您想通过模型和Processor(包括预置Processor自定义Processor)进行推理服务的部署,则选择该部署方式。

      镜像/镜像AI-Web部署

      部署方式选择镜像部署服务镜像部署AI-Web应用时,参数配置说明如下表所示:

      参数

      描述

      镜像选择

      支持以下几种配置方式:

      • PAI平台镜像:由阿里云PAI产品提供的多种官方镜像。

      • 用户自定义镜像:选择已创建的自定义镜像。关于如何创建自定义镜像,详情请参见自定义镜像

      • 镜像地址:支持输入用于部署模型服务的镜像地址,例如registry.cn-shanghai.aliyuncs.com/xxx/image:tag。您可以使用PAI官方公开镜像地址,也可以使用自定义镜像地址。镜像地址的获取方式,详情请参见自定义镜像

        重要

        选择的镜像地址和部署的服务需要在同一个地域。

        如果您使用私有仓库中的镜像,则需要单击输入,输入镜像仓库用户名镜像仓库密码

      填写模型配置

      单击填写模型配置,来进行模型配置。支持通过以下三种方式配置模型文件。

      • OSS挂载

        • 配置OSS源地址路径,即选择OSS Bucket路径。

        • 配置挂载路径,即配置挂载服务实例中的目标路径,用来读取OSS路径中的文件。

      • NAS挂载

        • NAS挂载点:选择NAS文件系统和挂载点,EAS服务通过挂载点来访问NAS文件系统。如何创建通用型NAS文件系统,详情请参见创建文件系统

        • NAS源路径:需要挂载的NAS中的源路径,即NAS实例内部的文件系统路径。

        • 挂载路径:挂载到服务实例中的目标路径,用来读取NAS路径中的文件。

      • PAI模型挂载

        • 根据模型名称和模型版本选择已注册的模型。关于如何查看已注册的模型,详情请参见注册及管理模型

        • 配置挂载路径:挂载服务实例中的目标路径,用来读取模型文件。

      填写代码配置

      单击填写代码配置,进行代码配置,支持使用以下几种挂载方式,来读取服务部署过程依赖的代码数据。

      • OSS挂载

        • 配置OSS源地址路径,即选择OSS Bucket路径。

        • 配置挂载路径,即配置挂载服务实例中的目标路径,用来读取OSS路径中的文件。

      • NAS挂载

        • NAS挂载点:配置NAS挂载点地址,EAS服务通过挂载点来访问NAS文件系统。

        • NAS源路径:需要挂载的NAS中的源路径。

        • 挂载路径:挂载服务实例中的目标路径,用来读取NAS路径中的文件。

      • Git挂载

        • Git地址:配置Git代码地址。

        • 挂载路径:挂载服务实例中的目标路径,用来读取Git代码地址中的代码文件。

      • PAI数据集挂载

        • 选择已创建的数据集,如果没有数据集,您可以单击新建数据集来创建一个新的数据集。

        • 配置挂载路径,即配置挂载服务实例中的目标路径,用来读取PAI数据集。

      • PAI代码挂载

        • 选择已创建的代码集,如果没有代码集,您可以单击新建代码配置来创建一个新的代码集。

        • 配置挂载路径,即配置挂载服务实例中的目标路径,用来读取PAI代码集。

      填写三方库配置列表

      单击填写三方库配置列表来配置三方库。支持以下两种方式配置第三方库。

      • 三方库列表:直接在下方文本框中输入三方库。

      • requirements.txt文件路径:将第三方库写入requirements.txt文件中,在下方文本框中指定该requirements.txt文件的路径。

      填写环境变量

      单击填写环境变量来配置环境变量。

      配置变量名和变量值:

      • 变量名:镜像执行时的环境变量名称。

      • 变量值:镜像执行时的环境变量取值。

      运行命令

      镜像的启动命令,例如:python /run.py

      同时您需要输入端口号,即镜像启动后监听的本地HTTP端口。

      重要

      由于EAS引擎监听固定的8080和9090端口,因此端口需要避开8080和9090端口。

      模型+processor部署

      部署方式选择模型+processor部署服务时,参数配置如下表所示:

      参数

      描述

      模型文件

      您可以通过以下任何一种方式配置模型文件:

      • OSS挂载

        选择模型文件所在的OSS路径。

      • 上传数据

        1. 选择当前地域下的OSS路径。

        2. 单击查看本地文件拖拽上传文件,并根据提示上传本地模型文件。

      • 公网下载地址

        单击公网下载地址,并在下方文本框中输入可以公开访问的URL地址。

      • 模型选择

        根据模型名称和模型版本选择已注册的模型。关于如何查看已注册的模型,详情请参见注册及管理模型

      Processor种类

      支持所有的预置官方Processor和自定义Processor,关于预置官方Processor的更多信息,详情请参见预置Processor使用说明

      模型类别

      Processor种类选择EasyVision(CPU)EasyVision(GPU)EasyTransfer(CPU)EasyTransfer(GPU)EasyNLPEasyCV时,支持配置该参数。上述每个Processor种类对应的模型类别不同,请根据业务使用场景选择。

      Processor语言

      Processor种类选择自定义processor时,支持配置。

      支持选择cppjavapython

      Processor包

      Processor种类选择自定义processor时,支持配置。您可以通过以下任何一种方式配置Processor包:

      • OSS文件导入

        单击OSS文件导入,并选择文件所在的OSS路径。

      • 本地上传

        1. 单击本地上传

        2. 选择当前地域下的OSS Bucket路径。

        3. 单击查看本地文件拖拽上传文件,并根据提示上传已下载的Processor文件。

          系统会将文件上传至当前地域的官方OSS路径,并自动配置Processor包

          说明

          通过本地上传的方式,可以使系统在模型部署时,快速加载Processor。

      • 公网下载地址

        单击公网下载地址,并在下方文本框中输入可以公开访问的URL地址。

      Processor主文件

      Processor种类选择自定义processor时,支持配置。自定义Processor包的主文件。

      填写挂载配置

      单击填写挂载配置,进行挂载配置,支持以下几种挂载方式。

      • OSS挂载

        • 配置OSS源地址路径,即选择OSS Bucket路径。

        • 配置挂载路径,即配置挂载服务实例中的目标路径,用来读取OSS路径中的文件。

      • NAS挂载

        • NAS挂载点:配置NAS挂载点地址,EAS服务通过挂载点来访问NAS文件系统。

        • NAS源路径:需要挂载的NAS中的源路径。

        • 挂载路径:挂载服务实例中的目标路径,用来读取NAS路径中的文件。

      • PAI数据集挂载

        • 选择已创建的数据集,如果没有数据集,您可以单击新建数据集来创建一个新的数据集。

        • 配置挂载路径,即配置挂载服务实例中的目标路径,用来读取PAI数据集。

      • PAI代码挂载

        • 选择已创建的代码集,如果没有代码集,您可以单击新建代码配置来创建一个新的代码集。

        • 配置挂载路径,即配置挂载服务实例中的目标路径,用来读取PAI代码集。

      填写环境变量

      单击填写环境变量来配置环境变量。

      配置变量名和变量值:

      • 变量名:镜像执行时的环境变量名称。

      • 变量值:镜像执行时的环境变量取值。

  2. 新建服务资源部署信息区域,配置参数。

    参数

    描述

    资源组种类

    支持选择公共资源组或已购买(创建)的专属资源组。如何购买专属资源组,详情请参见使用专属资源组

    说明

    建议在任务量相对较少、对任务时效性要求不高的场景下使用公共资源组。

    GPU共享

    资源组种类选择专属资源组时,支持打开GPU共享功能。具体配置方法,请参见高级配置:GPU共享

    说明

    当前GPU共享功能仅供白名单用户受限申请使用,如果您希望使用GPU共享功能,请先提交工单,申请添加GPU共享功能使用白名单。

    实例数

    建议配置多个服务实例,以避免单点部署带来的风险。

    资源组种类选择专属资源组时,您需要为每个服务实例配置CPU内存(MB)GPU参数。

    资源配置方法

    资源组种类选择公共资源组时,支持配置该参数。支持以下两种配置方式:

    • 常规资源配置

      支持选择单个CPU或GPU实例规格。

      如果您领取了免费资源包,支持在西南1(成都)、华南2(河源)、华南1(深圳)地域,使用试用活动页签的免费机型,详情请参见新用户免费试用

    • 性价比资源配置

      支持配置多规格实例抢占型实例

      • 抢占型保留时长:您可以为抢占型实例设置1小时保护期,即实例抢占成功后,默认至少可以使用1小时。

      • 部署资源:支持同时配置常规型资源或抢占型资源,并按照配置规格的先后顺序作为优先级排序来拉起资源,最多支持添加5个资源类型。如果您设置抢占型资源,需要为该机器资源设置出价上限,用来自动竞价抢占资源。

    弹性资源池

    资源组种类选择专属资源组时,支持配置该参数。

    您可以打开开启弹性资源池开关并参考资源配置方法进行公共资源配置,为部署在专属资源组中的服务开启弹性资源池能力。

    弹性资源池配置完成后,当服务扩容时遇到机器资源不足时,新扩出来的实例会自动启动在已配置的按量付费的公共资源上,并以按量计费的方式来进行计费;在缩容时会优先缩减公共资源组中的服务实例。更多详细内容,请参见弹性资源池

    系统盘配置

    资源组种类选择公共资源组时,支持配置该参数。

    单击系统盘配置,为EAS服务配置额外系统盘,单位为GB,取值范围为0~2000 GB。EAS免费赠送30 GB系统盘,如果此处配置20 GB,则实际可用的存储空间为:免费的30 GB+购买的20 GB=50 GB

    额外购买的系统盘按容量和使用时长计费,计费详情请参见模型在线服务(EAS)计费说明

  3. 可选:专有网络配置区域,配置VPC交换机安全组名称参数,为部署在公共资源组中的EAS服务开通VPC高速直连。

    网络连通后,该VPC环境中的ECS服务器等即可通过创建的弹性网卡访问部署在公共资源组中的EAS服务,同时EAS服务也可以访问VPC环境中的其他云产品。

  4. 可选:服务功能配置区域,配置参数。

    参数

    描述

    内存缓存加速

    EAS通过将模型文件缓存到本地目录中,来提高读取数据的速度,减少延时。更多关于该功能的详细介绍及配置方法,请参见高级配置:内存缓存本地目录

    设置服务响应超时时间

    设置服务响应超时时长,默认为15秒。

    共享内存配置

    设置共享内存大小,单位为GB。

    Job模式

    单击Job模式,并打开开关,您可以将推理服务部署成弹性Job服务。更多关于弹性Job服务的内容介绍,请参见弹性Job服务功能介绍

    保存服务调用记录

    支持将服务所有的请求和响应记录持久化保存到MaxCompute数据表中。打开开关,并配置以下参数:

    • MaxCompute项目:在下拉列表中选择已创建的项目。如果没有可选的项目,您也可以单击新建MaxCompute项目进行创建,详情请参见通过MaxCompute控制台创建项目

    • MaxCompute数据表:配置数据表名称,部署服务时,系统会自动在MaxCompute项目中创建数据表。

    专属网关

    单击专属网关,并在下拉列表中选择已创建的专属网关。通过配置专属网关,不仅可以增强访问控制与安全性,还可以提升网络访问服务的效率。如何创建专属网关以及配置访问控制,详情请参见高级配置:服务专属网关

    健康检查

    打开健康检查开关,为服务配置健康检查功能。更多关于该功能的详细介绍及配置方法,请参见高级配置:健康检查

  5. 对应配置编辑区域,显示服务配置的相关信息。您可以根据需要补充一些在界面不支持配置的配置项,详情请参见创建服务

    image

JSON独立部署方式参数配置说明

参照服务模型所有相关参数说明,准备用于部署服务的JSON文件。在JSON独立部署页面,将JSON文件内容填入JSON文本编辑框中,然后单击部署image

场景化部署方式参数配置说明

以下是您所选部署场景的参数配置说明:

AI绘画-SDWebUI部署

参数

描述

基本信息

服务名称

参照界面提示自定义配置服务名称。

版本选择

支持选择以下三种版本:

  • 标准版

    适用于单机使用的常规测试和应用,支持WebUI出图以及API调用。

  • API版

    适用于直接通过API进行业务集成,该版本会自动将服务切换为异步服务

  • 集群版WebUI

    适合团队成员共同使用WebUI执行AI绘图任务,确保每个用户的模型和输出路径保持独立,同时后端计算资源实现共享调度,大幅提升性能与成本效益。

  • Serverless版

    该版本服务的部署完全免费,费用仅基于生成图像所需的时间来计算,并且服务会根据您的请求量自动进行弹性伸缩。仅支持通过WebUI进行调用。

    说明

    目前,仅华东2(上海)和华东1(杭州)地域支持部署Serverless版服务。

模型配置

如果您想使用自行下载的开源模型、微调训练获得的模型,或者您需要保存输出数据到您自己的数据源中、需要进行一些第三方的配置和插件安装等。可以单击添加按钮进行配置。支持以下两种配置类型:

  • 按对象存储(OSS):选择OSS Bucket空文件目录。关于如何创建Bucket,请参见创建存储空间;关于如何创建空目录,请参见管理目录

  • 按文件存储(NAS

    • NAS挂载点:选择NAS文件系统和挂载点,EAS服务通过挂载点来访问NAS文件系统。

    • NAS源路径:需要挂载的NAS中的源路径,即NAS实例内部的文件系统路径。

资源配置

实例数

默认为1。建议配置多个服务实例,以避免单点部署带来的风险。

资源配置选择

选择部署服务所需的实例规格。仅支持使用公共资源组。推荐使用ml.gu7i.c16m60.1-gu30机型(性价比最高)。如果该机型售罄,可以选择其他机型。

专有网络配置(选填)

VPC

通过配置专有网络,为部署在公共资源组中的EAS服务开通VPC高速直连。

网络连通后,该VPC环境中的ECS服务器等即可通过创建的弹性网卡访问部署在公共资源组中的EAS服务,同时EAS服务也可以访问VPC环境中的其他云产品。

交换机

安全组名称

LLM大语言模型部署

参数

描述

基本信息

服务名称

参照界面提示自定义配置服务名称。

模型来源

模型来源如下:

  • 开源公共模型:您可直接从模型列表中选择,无需上传自己的模型,即可快速加载平台预置的LLM大语言模型,并一键启动模型服务。

  • 自持微调模型:您需要通过模型配置来挂载微调后的模型,并设置相应参数,以完成模型的部署。

模型类别

选择模型类别。

模型配置

模型来源选择自持微调模型时,需要配置该参数。

支持以下三种配置类型:

  • 按对象存储(OSS):选择微调模型所在的OSS Bucket目录。

  • 按文件存储(NAS)

    • NAS挂载点:选择NAS文件系统和挂载点,EAS服务通过挂载点来访问NAS文件系统。

    • NAS源路径:微调模型所在的NAS中的源路径,即NAS实例内部的文件系统路径。

  • 按PAI模型:根据模型名称和模型版本选择已注册的模型。关于如何注册模型,详情请参见注册及管理模型

资源配置

实例数

默认为1。建议配置多个服务实例,以避免单点部署带来的风险。

资源配置选择

选择部署服务所需的实例规格。仅支持使用公共资源组。推荐使用ml.gu7i.c16m60.1-gu30机型(性价比最高)。如果该机型售罄,可以选择其他机型。

专有网络配置(选填)

VPC

通过配置专有网络,为部署在公共资源组中的EAS服务开通VPC高速直连。

网络连通后,该VPC环境中的ECS服务器等即可通过创建的弹性网卡访问部署在公共资源组中的EAS服务,同时EAS服务也可以访问VPC环境中的其他云产品。

交换机

安全组名称

大模型RAG对话系统

参数

描述

基本信息

服务名称

参照界面提示自定义配置服务名称。

模型来源

模型来源如下:

  • 开源公共模型:您可直接从模型列表中选择,无需上传自己的模型,即可快速加载平台预置的LLM大语言模型,并一键启动模型服务。

  • 自持微调模型:您需要通过模型配置来挂载微调后的模型,并设置相应参数,以完成模型的部署。

模型类别

选择模型类别。

资源配置

实例数

默认为1。建议配置多个服务实例,以避免单点部署带来的风险。

资源配置选择

  • 当使用开源公共模型时,系统会根据选定的模型类别自动推荐适合的实例规格,默认选中。

  • 当使用自持微调模型时,请选择与目标模型相匹配的实例规格,详情请参见如何切换其他的开源大模型

推理加速

目前,部署在A10或GU30系列机型上的Qwen、Llama2、ChatGlm或Baichuan2等系列模型服务,支持启用推理加速功能。支持以下两种加速类型:

  • PAI-BladeLLM自动推理加速:BladeLLM提供超高性价比的大模型推理加速能力,可帮助您一键享受高并发和低延时的技术优势。

  • 开源框架vllm推理加速

向量检索库设置

根据您的场景需要,选择FAISS、ElasticSearch、Milvus、Hologres或AnalyticDB作为向量检索库。关于如何创建和配置向量检索库,请参见步骤一:准备向量检索库步骤二:部署RAG服务

专有网络配置

VPC

  • 当选择Hologres、AnalyticDB for PostgreSQL、ElasticSearch或Milvus作为向量检索库时,请确保所配置的专有网络与选定的向量检索库保持一致。

  • 当选择Faiss作为向量检索库时,无需配置专有网络。

交换机

安全组

AI视频生成-ComfyUI部署

参数

描述

基本信息

服务名称

自定义模型服务名称。

版本选择

支持选择以下版本:

  • 标准版:适用于单用户使用WebUI或使用一个实例调用API场景。支持通过WebUI生成视频,也可通过API进行调用。

  • API版:系统将自动转换服务为异步模式,适用于高并发场景。仅支持通过API进行调用。

  • 集群版WebUI:适合多用户同时在WebUI页面进行操作。仅支持通过WebUI进行调用,不提供API服务。关于该版本的实现原理介绍,请参见集群版服务原理介绍

更多关于每个版本的使用场景说明,请参见背景信息

模型配置

当部署微调模型、安装ComfyUI插件,或选择API版标准版并通过API进行调用时,您需要单击添加按钮,进行模型配置,以便上传微调模型、插件和获取推理结果。支持以下两种配置类型:

  • 按对象存储(OSS):单击image选择已创建的OSS存储目录。

  • 按文件存储(NAS):配置NAS挂载点和NAS源路径。

后续,您可以将自定义模型和ComfyUI插件上传至指定的OSS或NAS路径,以便加载和使用这些资源。具体操作,请参见如何挂载自定义模型和ComfyUI插件?

资源配置

实例数

当版本选择标准版时,建议将实例数配置为1。

资源配置选择

资源规格推荐使用GU30、A10或T4卡型。系统默认选择GPU > ml.gu7i.c16m60.1-gu30,性价比高。

说明

ComfyUI仅支持单卡(单机单卡或多机单卡)运行,不支持多卡并发操作。

ModelScope模型部署

参数

描述

基本信息

服务名称

参照界面提示自定义配置服务名称。

选择模型

在下拉列表中选择一种可直接部署的ModelScope模型类型。关于各模型更详细的内容介绍,请参见ModelScope官网

模型版本

在下拉列表中选择模型版本。默认为最新版本。

模型类别

选择模型后,系统将自动为您匹配相应的模型类别。

资源配置

实例数

默认为1。建议配置多个服务实例,以避免单点部署带来的风险。

资源配置选择

选择部署服务所需的实例规格。仅支持使用公共资源组。

专有网络配置(选填)

VPC

通过配置专有网络,为部署在公共资源组中的EAS服务开通VPC高速直连。

网络连通后,该VPC环境中的ECS服务器等即可通过创建的弹性网卡访问部署在公共资源组中的EAS服务,同时EAS服务也可以访问VPC环境中的其他云产品。

交换机

安全组名称

HuggingFace模型部署

参数

描述

基本信息

服务名称

参照界面提示自定义配置服务名称。

模型ID

配置HuggingFace模型ID,例如distilbert-base-uncased-finetuned-sst-2-english您可以参照步骤一查找模型ID。

模型类别

配置HuggingFace模型类别,例如text-classification。您可以参照步骤一找到部署EAS服务时所需的模型类别(TASK)。

模型版本

配置HuggingFace模型版本,例如main。您可以参照步骤一查找模型版本。

资源配置

实例数

默认为1。建议配置多个服务实例,以避免单点部署带来的风险。

资源配置选择

选择部署服务所需的实例规格。仅支持使用公共资源组。

专有网络配置(选填)

VPC

通过配置专有网络,为部署在公共资源组中的EAS服务开通VPC高速直连。

网络连通后,该VPC环境中的ECS服务器等即可通过创建的弹性网卡访问部署在公共资源组中的EAS服务,同时EAS服务也可以访问VPC环境中的其他云产品。

交换机

安全组名称

Triton部署

参数

描述

基本信息

服务名称

参照界面提示自定义配置服务名称。

模型配置

Triton部署模型需符合特定结构要求,请参照Triton Inference Server镜像部署进行准备。模型准备就绪后,您可以通过以下任意一种方式选择配置类型:

  • 按对象存储OSS:选择模型存储的OSS目录。

  • 按文件存储(NAS)

    • NAS挂载点:选择NAS文件系统和挂载点,EAS服务通过挂载点来访问NAS文件系统。如何创建通用型NAS文件系统,详情请参见创建文件系统

    • NAS源路径:选择模型存储在NAS中的源路径。

  • 按PAI模型:根据模型名称和模型版本选择已注册的模型。关于如何注册模型,请参见注册及管理模型

资源配置

实例数

默认为1。建议配置多个服务实例,以避免单点部署带来的风险。

资源配置选择

选择部署服务所需的实例规格。仅支持使用公共资源。

专有网络配置(选填)

VPC

通过配置专有网络,为部署在公共资源组中的EAS服务开通VPC高速直连。

网络连通后,该VPC环境中的ECS服务器等即可通过创建的弹性网卡访问部署在公共资源组中的EAS服务,同时EAS服务也可以访问VPC环境中的其他云产品。

交换机

安全组名称

TFServing部署

参数

描述

基本信息

服务名称

参照界面提示自定义配置服务名称。

部署方式

支持以下两种部署方式:

  • 标准模型部署:用于部署单模型服务。

  • 配置文件部署:用于部署多模型服务。

模型配置

TFServing部署模型需符合特定结构要求,请参照TensorFlow Serving镜像部署进行准备。

  • 部署方式选择标准模型部署时,您需要配置模型文件所在的OSS路径。

  • 部署方式选择配置文件部署时,您需要配置以下参数:

    • OSS:选择模型所在的OSS路径。

    • 挂载路径:挂载服务实例中的目标路径,用来读取模型文件。

    • 配置文件:选择模型配置文件所在的OSS路径。

资源配置

实例数

默认为1。建议配置多个服务实例,以避免单点部署带来的风险。

资源配置选择

选择部署服务所需的实例规格。仅支持使用公共资源组。

专有网络配置(选填)

VPC

通过配置专有网络,为部署在公共资源组中的EAS服务开通VPC高速直连。

网络连通后,该VPC环境中的ECS服务器等即可通过创建的弹性网卡访问部署在公共资源组中的EAS服务,同时EAS服务也可以访问VPC环境中的其他云产品。

交换机

安全组名称

管理EAS模型在线服务

您可以在模型在线服务页面的推理服务页签,查看已部署的服务列表,并对目标服务进行停止、启动、删除等操作。

警告

停止或删除模型服务,会导致依赖该服务的相关请求失败,请谨慎操作。

  • 查看服务详情

    • 单击目标服务名称,进入服务详情页面。在该页面查看服务基本信息、服务实例和服务配置等。

    • 在服务详情页面上方,您可以切换至不同的功能页签,以查看服务监控、日志、部署事件等信息。

  • 更新服务资源配置

    服务详情页面,单击资源信息区域的资源配置。更新服务运行的资源,配置方法请参见控制台上传部署

  • 更新已有服务版本

    在推理服务列表中,单击目标服务操作列下的更新服务,参考控制台上传部署配置方法,来更新服务版本。

    警告

    服务更新过程中将暂时中断运行,可能导致依赖此服务的请求失败,请务必谨慎操作。

    服务更新完成后,单击当前版本,查看版本信息或切换服务版本。image

  • 扩缩容

    在推理服务列表中,单击目标服务操作列下的扩缩容,配置实例数,来提高或减少指定模型服务占用的资源。

  • 弹性伸缩

    根据业务需求,配置服务以自动调整EAS其占用的资源。具体操作,请参见方式一:通过控制台管理水平自动扩缩容功能

相关文档