多机分布式推理

更新时间:2025-03-10 07:39:23

随着DeepSeek 671B等超大规模MoE模型的问世,单一设备已难以承载其庞大的参数量。为此,EAS推出多机分布式推理解决方案,突破硬件限制,实现单个服务实例部署在多台机器上,高效支持超大规模模型的部署与运行。本文为您介绍如何配置多机分布式推理。

使用限制

仅使用分布式推理逻辑的镜像部署服务时,才能使用多机分布式推理功能。EAS提供的支持分布式推理逻辑的官方镜像包括vllm:0.7.1sglang:0.4.1

实现原理

image

EAS多机分布式推理服务与普通推理服务在实现原理上既有相同点也有不同点,具体说明如下:

  • 不同点:多机分布式推理服务引入了实例分组的概念,具体实现原理如下:

    • 工作原理:实例分组内部通过高性能网络通信,通过TP/PP等并行模式相互协调完成一次请求的处理。每个分组实例内部都会通过环境变量的形式注入实例编号(参考分组实例内注入的环境变量及说明),通过实例编号控制不同实例执行不同的任务。

    • 流量分配机制:实例分组对外只通过1号实例(RANK_ID0)承接流量,通过服务发现机制把请求流量分配到不同实例分组的1号实例进行处理。

    • 生命周期管理:实例分组的生命周期默认和分组中1号实例的生命周期一致,当1号实例发生重建时,会触发分组内的所有其它实例进行重建。

  • 相同点:多机分布式推理服务的实例分组也支持滚动更新。在滚动更新时,实例分组作为一个整体进行重建。新分组中的所有实例会并行创建,待新的实例分组中的所有实例就绪后,系统会先对要删除的实例分组进行摘流,再删除分组中的所有实例。

配置多机分布式推理

通过EAS自定义部署

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

    • 新建服务:在推理服务页签,单击部署服务,选择自定义模型部署自定义部署

    • 更新服务:推理服务页签的服务列表中找到要操作的服务,操作列单击更新。

  2. 在参数配置表单中,配置以下关键参数。更多参数配置说明,请参见服务部署:控制台

    • 环境信息区域,配置镜像和运行命令:

      • 镜像配置:在官方镜像中选择vllm:0.7.1sglang:0.4.1image

      • 运行命令:选择镜像后,系统会自动配置运行命令,您无需修改。

    • 资源部署区域,打开分布式推理开关,并配置以下关键参数:image

      参数

      描述

      参数

      描述

      单实例部署的机器数

      单个模型推理实例部署的机器数,最小值为2。

      RDMA网络

      开启RDMA网络来保证机器之间的高效网络连接。

      说明

      当前仅使用灵骏智算资源部署的服务可以使用RDMA网络。

  3. 参数配置完成后,单击部署/更新

通过Model Gallery一键部署

仅当部署方式选择SGLang加速部署vLLM加速部署时,才支持使用分布式推理。

对于参数量比较大的模型,通过Model Gallery一键部署模型服务时,选择SGLang加速部署vLLM加速部署的分布式部署方式,EAS会自动打开分布式推理开关。您可以单击修改配置,来调整单实例部署使用的机器数量。image

附录

分组实例内注入的环境变量及说明如下表所示:

环境变量名称

说明

示例值

环境变量名称

说明

示例值

RANK_ID

实例ID。

0

MASTER_ADDRESS

RANK_ID0的实例IP。

  • 在用户配置RDMA场景下,会返回RDMA网卡net0IP。

  • 在用户配置普通VPC场景下会返回用户网卡eth1IP。

11.*.*.*

COMM_IFNAME

实例使用的网卡名称。

  • 在用户配置RDMA的场景下值为net0。

  • 在用户配置普通VPC场景下值为net1。

net0

RANK_IP

实例IP。

11.*.*.*

  • 本页导读 (1)
  • 使用限制
  • 实现原理
  • 配置多机分布式推理
  • 通过EAS自定义部署
  • 通过Model Gallery一键部署
  • 附录