文档

模型部署

更新时间:
重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

模型部署可以为您创建专属的推理服务。本文介绍了模型部署的基本概念、使用方法和配置指南,帮助您为大语言模型配置专属的模型推理服务。

功能概述

简单来说,模型部署是指将大模型运行在专属的计算资源上,使模型在独立的运行环境中高效、可靠地运行,并为业务应用提供推理服务。

支持的模型

模型部署支持预置模型和自定义模型,对比如下:

模型类别

定义

特点

为什么选择模型部署

预置模型

百炼预先部署在公用云服务器上的大语言模型。

泛用性高,用户基础较广,涵盖了通义系列模型、行业大模型、第三方模型等。

例如:通义千问-Max模型。

部署后,您将获得更高的并发量。

自定义模型

使用百炼微调的个性化大语言模型。

适应特定领域的语义环境,具有更高的准确性和专业性,以及更好的上下文理解能力。

例如:基于情感分类任务微调的模型。

部署后,您才可以使用这类模型,评测模型的微调效果。同时您可以获得更稳定的模型服务、更高的并发量。

快速配置

阿里云百炼支持两种模型部署方式:百炼控制台(0代码)和API(全代码)。两种部署方式完全等价,您可以根据业务需求决定部署方式。

百炼控制台部署(0代码)

操作步骤

示意图

  1. 请访问阿里云百炼-模型部署,点击部署新模型

image

  1. 选择您要部署的模型和计费模式。

    建议您在第一次部署时选择按量付费的计费模式:根据您的并发量需求,填写实例数量,最后确认部署清单。

    系统会自动计算算力单元数量。实例数、算力单元与并发量的换算关系,请参考文末的实例数量与并发量的换算关系。
    重要

    点击开始部署后,您将开始支付模型部署的费用,请您务必确认后再部署模型。

image

  1. 查看部署状态

    开始部署后,您可以在控制台上查看部署进度,这需要一定时间,请您耐心等待。

    当部署状态为运行中时,代表该模型可以提供推理服务。

image

进阶配置

通过 API 部署模型(全代码)

除了在控制台操作,百炼支持通过 HTTP 请求执行模型部署。以下是简洁的操作指南:

前提准备

获取 API-KEY:确保已获取并配置好 API-KEY,参考获取API Key配置API Key到环境变量

重要

由于代码操作的特殊性,当您在执行付费操作时(例如创建或更新部署任务),百炼不会向您确认消费数额,因此可能产生意料之外的费用。强烈建议您在执行下列操作前,充分了解各项操作可能产生的影响,以及百炼模型部署服务的单价和计费规则

常见操作步骤

  1. 列举可部署模型

    获取可部署模型列表:

    curl "https://dashscope.aliyuncs.com/api/v1/deployments/models" \
        --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
        --header "Content-Type: application/json"

    返回示例:

    {
      "request_id": "cb68e88f-d3fc-4aed-b8bc-2c76c7e05607",
      "output": {
        "models": [
          {
            "model_name": "qwen-turbo",
            "base_capacity": 2
          },
        ],
        "page_no": 1,
        "page_size": 50,
        "total": 1
      }
    }

    model_name:模型名称

    base_capacity:每个实例需要的最小算力单元数量

  2. 创建部署任务

    部署模型:

    curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
        --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
        --header "Content-Type: application/json" \
        --data "{        
                    "model_name": "<YOUR_MODEL_NAME>",      
                    "capacity": 1,        
                    "suffix": "sample"
                }"

    model_name:待部署的模型

    capacity:分配的算力单元,需为 base_capacity基础算力单元) 的整数倍

    suffix(可选):用于区分多个部署任务

  3. 查询部署任务状态

    查看某个任务的状态:

    curl 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-v1-ft-202305099980-fac9-sample' \
        --header 'Authorization: Bearer <YOUR-DASHSCOPE-API-KEY>' \
        --header 'Content-Type: application/json' 
  4. 调用部署任务

    使用已部署模型:

    curl --location "https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation" \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header "Content-Type: application/json" \
    --data '{
        "model": "qwen-turbo",
        "input":{
            "messages":[      
                {
                    "role": "system",
                    "content": "You are a helpful assistant."
                },
                {
                    "role": "user",
                    "content": "你是谁?"
                }
            ]
        },
        "parameters": {
            "result_format": "message"
        }
    }'
  5. 更新部署任务(可选)

    动态调整部署任务的算力单元,实现扩缩容:

    curl --request PUT 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-v1-ft-20230703-cx7f/scale' \
        --header 'Authorization: Bearer <YOUR-DASHSCOPE-API-KEY>' \
        --header 'Content-Type: application/json' \
        --data '{    
                    "capacity":4
                }'
  6. 查询所有部署任务(可选)

    查看所有任务状态:

    curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
        --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
        --header "Content-Type: application/json" 
  7. 删除部署任务(可选)

    警告

    删除已部署的模型,可能会导致该模型关联的线上业务发生中断,请谨慎操作。

    下线已部署模型:

    curl --request DELETE "https://dashscope.aliyuncs.com/api/v1/deployments/<deployed_model>" \
        --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
        --header "Content-Type: application/json" 

选择付费方式

选择计费模式,您可以前往计费项与定价对比两种计费模式。

在快速配置中,您已经了解了按量付费的方式,这里提供了包月资源的简介。

包月资源:您需要先付费购买资源包,操作步骤详见示意图。

重要

实例规格支持不同的预置模型。

请您在购买页面确认:您选择的预置模型与实例规格是否对应。

image

image

附录

名词解释

名词

解释

实例

是模型部署量的基本单位,表示每个部署任务提供的推理服务数量。实例数量越多,部署提供的推理服务越多,并发性能越好。通过动态调整实例数量,模型能够应对流量变化,确保高峰期的高效响应。

基础算力单元

是模型的一项属性,表示部署模型到单个实例上所需的算力单元数量。比如,qwen-turbo模型的基础算力单元是2,代表部署qwen-turbo到一个实例上需要2个算力单元。

QPM(Queries Per Minute,每分钟请求数)

是衡量模型推理并发性能的一个指标,表示模型每分钟可处理的请求数量。实例越多,QPM越高,模型的响应能力越强,能够更好地应对高并发请求。

部署后并发性能参考表

模型名称

基础算力单元

每实例参考处理能力

qwen-plus

8

70 QPM

qwen-turbo

2

25 QPM

llama2-7b-chat-v2

1

4 QPM

llama2-13b-chat-v2

2

6 QPM

chatglm-6b-v2

1

6 QPM

后续操作

如您希望了解计费信息,请访问计费项与定价

如您希望了解API详情,请访问模型部署

如您希望评测模型微调的效果,请访问模型评测