如何快速部署一个专属服务_大模型服务平台百炼(Model Studio)-阿里云帮助中心

前提条件

已开通服务并获得api-key：获取API Key
已安装最新版SDK：安装SDK

1. 创建专属服务

下面的命令使用模型qwen-plus，创建一个专属服务qwen-plus-5790cf81，使用8个算力单元：

curl 'https://dashscope.aliyuncs.com/api/v1/deployments' \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header 'Content-Type: application/json' \
    --data '{        
                "model_name": "qwen-plus",
                "capacity": 8
            }'

命令执行成功后，返回如下结果：

{
    "request_id":"12869b6a-4785-9d65-91c1-0a1c102aadd4",
    "output":{
        "deployed_model":"qwen-plus-5790cf81",
        "status":"PENDING",
        "model_name":"qwen-plus"
    }
}

其中deployed_model为专属服务的唯一ID。

2. 查询服务状态

通过以下命令查询指定专属服务的详细信息：

curl 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-plus-5790cf81' \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header 'Content-Type: application/json'

命令执行成功后，返回如下结果：

{
    "request_id":"b34157d6-8c85-9dc8-a086-c619e8ade696",
    "output":{
        "deployed_model":"qwen-plus-5790cf81",
        "status":"PENDING",
        "model_name":"qwen-plus"
        "capacity":8
    }
}

当服务状态为RUNNING时，服务部署完成。

3. 执行推理请求

通过SDK对专属服务发起请求：

from dashscope import Generation
from http import HTTPStatus

response = Generation.call(
    model='qwen-plus-5790cf81',
    prompt='你是谁？'
)

if response.status_code == HTTPStatus.OK:
    print(response.output)
    print(response.usage)
else:
    print(response.code)
    print(response.message)

说明

执行推理请求使用的API-KEY需要与创建服务使用的API-KEY相同，或归属于相同的阿里云账号。若首次使用DashScope SDK，请参考安装SDK，获取API Key。

代码执行成功后，返回如下结果：

{"text": "我是Qwen，由阿里云开发的超大规模语言模型。我被设计用于生成各种类型的文本，如文章、故事、诗歌等，并能根据不同的场景和需求进行对话、解答问题、提供信息和帮助等。很高兴为您服务！如果您有任何问题或需要帮助，请随时告诉我。", "finish_reason": "stop", "choices": null}
{"input_tokens": 11, "output_tokens": 63, "total_tokens": 74}

4. 删除专属服务

不再使用的专属服务，可以通过下面的命令删除：

curl --request DELETE 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-plus-5790cf81' \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header 'Content-Type: application/json'

命令执行成功后，返回以下结果：

{
    "request_id":"4bb4d869-bb24-9439-8fb2-e67231228144",
    "output":{
        "deployed_model":"qwen-plus-5790cf81",
        "status":"DELETING",
        "model_name":"qwen-plus",
        "capacity":8
    }
}