一键部署DeepSeek-V3、DeepSeek-R1模型

DeepSeek-V3是由深度求索公司推出的一款拥有6710亿参数的专家混合(MoE)大语言模型,DeepSeek-R1是基于DeepSeek-V3-Base训练的高性能推理模型。Model Gallery提供了BladeLLM、SGLangvLLM加速部署功能,帮助您一键部署DeepSeek-V3DeepSeek-R1系列模型。

支持的模型列表

说明

DeepSeek-R1、DeepSeek-V3满血版模型的参数量较大(671B),所需配置和成本较高(896G显存以上)。建议您选择蒸馏版模型(机器资源较充足、部署成本较低)。

根据测试,DeepSeek-R1-Distill-Qwen-32B模型的效果和成本较优,适合云上部署,可尝试作为DeepSeek-R1的替代模型。您也可以选择7B、8B、14B等其他蒸馏模型部署,Model Gallery还提供了模型评测功能,可以评测模型实际效果(评测入口在模型详情页右上角)。

表中给出的是最低所需配置机型,在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。

模型

最低配置

支持的最大Token

部署方式为BladeLLM加速(推荐)

部署方式为SGLang加速(推荐)

部署方式为vLLM加速

部署方式为标准部署

DeepSeek-R1

8GU120(8 * 96 GB显存)

不支持

163840

4096

不支持

DeepSeek-V3

8GU120(8 * 96 GB显存)

不支持

163840

4096

2000

DeepSeek-R1-Distill-Qwen-1.5B

1A10(24 GB显存)

131072

不支持

131072

131072

DeepSeek-R1-Distill-Qwen-7B

1A10(24 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Llama-8B

1A10(24 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Qwen-14B

1GPU L(48 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Qwen-32B

2GPU L(2 * 48 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Llama-70B

2GU120(2 * 96 GB显存)

131072

不支持

32768

131072

部署方式说明:

  • BladeLLM 加速部署BladeLLM是阿里云 PAI 自研的高性能推理框架。

  • SGLang 加速部署SGLang是一个适用于大型语言模型和视觉语言模型的快速服务框架。

  • vLLM 加速部署vLLM是一个业界流行的用于LLM推理加速的库。

  • 标准部署:不使用任何推理加速的标准部署。

推荐使用加速部署(BladeLLM、SGLang),性能和支持的最大Token数都会更优。

加速部署仅支持API调用方式,标准部署支持API调用方式及WebUI chat界面。

模型部署

  1. 进入Model Gallery页面。

    1. 登录PAI控制台

    2. 在顶部左上角根据实际情况选择地域。

    3. 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

    4. 在左侧导航栏选择快速开始 > Model Gallery

  2. Model Gallery页面右侧的模型列表中,找到需要部署的模型卡片,例如DeepSeek-R1-Distill-Qwen-32B模型,单击进入模型详情页面。

  3. 单击右上角部署,选择部署方式和部署资源后,即可一键部署,生成一个 PAI-EAS 服务。

    重要

    如果部署DeepSeek-R1DeepSeek-V3模型,您可以选择的机型包括:

    • 单机-标准机型:ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge(公共资源,库存可能较紧张),ecs.ebmgn8v.48xlarge(无法通过公共资源使用,请购买EAS专属资源

    • 单机-GP7V机型:ml.gp7vf.16.40xlarge(公共资源,仅可竞价使用,当标准机型资源紧张时,请切换至华北6(乌兰察布)寻找GP7V资源,部署时请务必配置VPC)

    如果对性能要求较高,可以使用分布式部署。

    • 分布式-GU7X机型:4ml.gu7xf.8xlarge-gu108 (公共资源,仅可竞价使用,请切换地域至华北6(乌兰察布)使用,部署时请务必配置VPC)

    • 分布式-灵骏智算资源:需开通白名单使用,如需咨询请联系销售经理或提交工单。请切换地域至华北6(乌兰察布)使用,部署时请务必配置VPC。(PAI灵骏智算资源提供高性能、高弹性异构算力服务,资源利用率可提升3倍,详情请参见PAI灵骏智算服务概述

    image

模型调用

您可以通过下表了解不同部署方式支持的模型调用方式。

BladeLLM部署

SGLang部署

vLLM部署

标准部署

WebUI

不支持,需本地启动WebUI。详情请参见WebUI使用

支持

在线调试

支持。详情请参见在线调试

API调用

所有部署方式都支持通过以下接口发送HTTP POST请求调用模型。

  • completions 接口:<EAS_ENDPOINT>/v1/completions

  • chat 接口:<EAS_ENDPOINT>/v1/chat/completions

注意,标准部署还支持Endpoint后面不添加任何内容直接调用。详情请参见API调用

对于DeepSeek-R1系列模型,官方给出使用建议如下:

  • temperature 设置在 0.5-0.7 之间,推荐 0.6,防止输出重复或不连贯。

  • 不要添加 system prompt,所有的指令应添加在 user prompt 中。

  • 针对数学类问题,建议在 prompt 中包含“请逐步推理,并将最终答案放在\boxed{}中。”

  • DeepSeek-R1 系列模型在响应某些问题时会绕过思考模式(输出 "<think>\n\n</think>"),这可能会对模型的性能产生不利影响。为确保模型进行深度思考推理,建议要求模型在每次输出以 "<think>\n" 开始。

重要

使用BladeLLM加速部署方式,如果不指定max_tokens参数,默认会按照max_tokens=16进行截断。建议您根据实际需要调整请求参数max_tokens

WebUI使用

如果是标准部署,支持Web应用。在Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在服务详情页面右上角单击查看WEB应用,即可通过ChatLLM WebUI进行实时交互。

image

非标准部署,可下载Web UI代码,在本地启动一个Web UI。

注意:BladeLLMvLLM、SGLang部署使用的Web UI代码不同。

python webui_client.py --eas_endpoint "<EAS API Endpoint>" --eas_token "<EAS API Token>"

在线调试

Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在在线测试模块中找到EAS在线调试的入口,使用如下示例数据测试接口。

注意:在线调试中已经填充的路径是以下示例中的<EAS_ENDPOINT>

单击查看请求数据示例

BladeLLM加速部署

  • completions接口<EAS_ENDPOINT>/v1/completions请求数据:

{"prompt":"hello world"}
  • chat接口<EAS_ENDPOINT>/v1/chat/completions请求数据:

  • 重要

    使用DeepSeek-R1系列模型,官方建议不要添加 system prompt,所有的指令应添加在 user prompt 中。

    {
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "Hello World!!"
            }
        ],
        "max_tokens": 2000
    }

SGLang、vLLM加速部署

以下示例中,<model_name>请替换为模型列表接口<EAS_ENDPOINT>/v1/models获取的模型名称。您还可以通过<EAS_ENDPOINT>/openapi.json获取API 描述文件。

  • completions接口<EAS_ENDPOINT>/v1/completions请求数据:

{"model": "<model_name>", "prompt":"hello world"}
  • chat接口<EAS_ENDPOINT>/v1/chat/completions请求数据:

  • 重要

    使用DeepSeek-R1系列模型,官方建议不要添加 system prompt,所有的指令应添加在 user prompt 中。

    {
        "model": "<model_name>",
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "Hello!"
            }
        ]
    }

标准部署

  • completions接口<EAS_ENDPOINT>/v1/completions请求数据:

  • {"prompt":"hello world"}
  • chat接口<EAS_ENDPOINT>/v1/chat/completions请求数据:

  • 重要

    使用DeepSeek-R1系列模型,官方建议不要添加 system prompt,所有的指令应添加在 user prompt 中。

    {
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "Hello World!!"
            }
        ]
    }
  • 请求路径:<EAS_ENDPOINT>

  • 支持completions接口和chat接口的数据请求格式,同时支持字符串直接请求。

  • String类型

    hello world

    completions类型

    {"prompt":"hello world"}

    chat类型

    {
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "Hello World!!"
            }
        ]
    }

API调用

  1. Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,进入服务详情页。

  2. 单击查看调用信息获取调用的 Endpoint 和 Token。

  3. 单击预训练模型跳转到Model Gallery的模型介绍页查看API调用方式的详细说明。

    image

    image

关于成本

  • 由于DeepSeek-V3DeepSeek-R1模型较大,模型部署费用较高,建议用于正式生产环境。

  • 您还可以选择部署经过知识蒸馏的轻量级模型,这些模型的参数量显著减少,从而大幅降低部署成本。

  • 如果您从未使用过EAS,可以前往阿里云试用中心领取PAI-EAS试用资源。领取成功后,可以在Model Gallery选择最低配置为 A10 的模型(如DeepSeek-R1-Distill-Qwen-7B)进行部署,并在部署时修改资源规格为试用活动中的机型。

  • 对于长期使用的模型,您可以采用公共资源组搭配节省计划的方式,或者购买预付费EAS资源组来节约成本。

  • 如果是非生产环境使用,可以在部署时打开竞价模式,但需满足一定条件才能竞价成功,且有资源不稳定的风险。

FAQ

点击部署后服务长时间等待

可能的原因:

  • 当前地域下机器资源不足。

  • 由于模型较大,模型加载耗时较长(对于DeepSeek-R1、DeepSeek-V3这样的大模型,需要20-30min)。

您可以耐心等待观察一段时间,如果服务仍长时间无法正常启动运行,建议尝试以下步骤:

  1. 进入任务管理-部署任务,查看部署任务详情页。在页面右上角单击更多 > 更多信息,跳转到PAI-EAS的模型服务详情,查看服务实例状态。

    EAS实例状态

  2. 关闭当前服务,并在控制台左上角切换到其他地域重新部署服务。

    说明

    对于DeepSeek-R1、DeepSeek-V3这样的超大参数量模型,需要8GPU才能启动服务(资源库存较紧张),您可以选择部署DeepSeek-R1-Distill-Qwen-7B等蒸馏小模型(资源库存较富裕)。

服务部署成功后,调用API返回404

请检查调用的URL是否加上了OpenAIAPI后缀,例如v1/chat/completions。详情可以参考模型主页调用方式介绍。

请求太长导致EAS网关超时

EAS默认网关的请求超时时间是180秒,如果需要延长超时时间,可以配置EAS专属网关,并提交工单调整专属网关的请求超时时间,最大可以调整到600秒。

部署完成后,如何在EAS的在线调试页面调试

详情请参见如何在线调试已部署的模型?

模型部署之后没有“联网搜索”功能

“联网搜索”功能并不是仅通过直接部署一个模型服务就能实现的,而是需要基于该模型服务自行构建一个AI应用(Agent)来完成。

通过PAI的大模型应用开发平台LangStudio,可以构建一个联网搜索的AI应用,详情请参考联网搜索:Chat With Web Search

模型服务如何集成到AI应用(以Dify为例)

DeepSeek-R1-Distill-Qwen-7B模型为例,建议采用vLLM加速部署。

  1. Dify中编辑“模型供应商”,添加更多模型供应商“OpenAI-API-compatible”:

    image

  2. 模型名称填写“DeepSeek-R1-Distill-Qwen-7B”,API Key填写EAS服务Token,API endpoint URL填写EAS服务endpoint(注意末尾加上/v1)。EAS服务Tokenendpoint获取方式:进入Model Gallery的任务管理-部署任务,在部署任务详情页面单击查看调用信息

    image

相关文档