基于专家并行和PD分离部署MoE模型

混合专家模型(MoE)通过“稀疏激活”机制,在实现万亿级参数规模的同时降低了计算成本,但也给传统推理部署带来了挑战。专家并行(EP)是一种专为MoE设计的分布式策略,它将不同专家部署在不同GPU上,通过动态路由请求,有效解决了显存瓶颈、提升了并行计算性能,并显著降低了部署成本。本文介绍在PAI-EAS上,为MoE模型启用专家并行(EP)和Prefill-Decode(PD)分离部署,以实现更高的推理吞吐和成本效益。

方案架构

阿里云人工智能平台PAI的模型在线服务(EAS) 提供了生产级EP的部署支持,将PD分离、大规模EP、计算-通信协同优化、MTP等技术融为一体,形成多维度联合优化的新范式。

image.png

方案优势

  • 一键式部署:提供内置了镜像、可选资源、运行命令等的EP部署模板,将复杂的分布式部署简化为向导式操作,无需关注底层实现。

  • 聚合服务管理:在统一视图下对Prefill、Decode和智能路由等子服务进行独立监控、扩缩容和生命周期管理。

部署EP服务

以部署模型DeepSeek-R1-0528-PAI-optimized(PAI优化版模型,能够支持更高的吞吐和更低的时延)为例,操作步骤如下:

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

  2. 推理服务页签,单击部署服务,然后在场景化模型部署区域,单击LLM大语言模型部署

  3. 模型配置选择公共模型DeepSeek-R1-0528-PAI-optimized

    image.png

  1. 推理引擎选择vLLM,部署模板选择EP+PD分离-PAI优化版

    image.png

  2. PrefillDecode服务配置部署资源。可以选择公共资源或者资源配额。

    • 公共资源:适用于快速体验和开发测试。可用规格有ml.gu8tea.8.48xlargeml.gu8tef.8.46xlargeimage.png

    • 资源配额:推荐用于生产环境,以保证资源稳定性和隔离性。如果没有可用的资源配置,无法选择该类型。

      image.png

  3. (可选)调整部署参数以优化性能。

    • 实例数:调整PrefillDecode的实例数量,以改变PD配比。部署模板中实例数的默认设置为1。

    • 并行参数:在环境变量中调整PrefillDecode服务的并行策略参数,如EP_SIZEDP_SIZETP_SIZE。部署模板中的默认值为:PrefillTP_SIZE8,DecodeEP_SIZEDP_SIZE8。

      说明

      为保护DeepSeek-R1-0528-PAI-optimized的模型权重,平台未透出推理引擎的运行命令,用户可以通过环境变量修改重要参数。

      image.png

  4. 单击部署,等待服务启动。此过程约需要40分钟。

  5. 验证服务状态。部署完成后,在服务详情页的在线调试页签中测试服务是否正常运行。

    说明

    API调用及第三方应用集成,可参见调用LLM服务

    构造一个符合OpenAI格式的请求,在URL路径后附加 /v1/chat/completions,请求体为:

    {
        "model": "",
        "messages": [
            {
                "role": "user",
                "content": "Hello!"
            }
        ],
        "max_tokens": 1024
    }

    单击发送请求,可以看到响应结果为200,模型成功输出回答,表示服务正常运行。

    image.png

管理EP服务

  1. 在服务列表页,点击服务名称进入详情页,可以对服务进行精细化管理。查看维度既包含整体服务(即聚合服务),也包含Prefill、DecodeLLM智能路由等子服务。

    image.png

  2. 用户可以查看服务的监控和日志,以及配置自动伸缩策略。

    image.png