模型权重服务

背景信息

随着大语言模型(LLM)参数量呈现指数级增长(如开源模型DeepSeekV3-671B已达700GB+规模),模型加载耗时已成为影响推理服务效率的关键瓶颈。这一现象在以下场景中尤为突出:

  1. 弹性扩容场景:模型加载时间直接影响服务扩展的敏捷性。

  2. 多实例部署场景:并发从远端存储(OSS/NAS/CPFS)拉取模型导致带宽竞争,进一步降低模型加载效率。

针对上述挑战,PAI推理服务创新性地发布了模型权重服务功能(Model Weight Service, MoWS),其核心技术特征包括:

  • 分布式缓存架构:利用节点内存资源构建权重缓存池。

  • 高速传输机制:基于RDMA的机间互联实现低延迟数据传输。

  • 智能分片策略:支持并行分片传输与完整性校验。

  • 内存共享优化:实现单机多进程间零拷贝权重共享。

  • 权重智能预取:利用闲置时间提前预读模型权重。

  • 高效缓存策略:保证模型分片在实例间负载均衡。

实际部署表明,该方案在超大规模实例集群中可实现:

  1. 扩容速度提升 10 倍(对比传统拉取模式)。

  2. 带宽利用率提高60%+。

  3. 服务冷启动时间缩短至秒级。

image.png

通过充分利用多实例之间的带宽资源,实现模型权重的高效快速传输。模型权重服务不仅支持模型权重的本地缓存,还能够实现权重的跨实例共享。在处理大规模参数模型以及在大规模实例部署的场景中,MoWS能够显著提升服务的扩缩容效率和启动速度。

使用方式

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

  2. 单击部署服务,然后在自定义模型部署区域,单击自定义部署

  3. 自定义部署页面,配置以下关键参数,其他参数配置说明,请参见控制台自定义部署参数说明

    • 环境信息镜像配置中,选择官方镜像,选择镜像仓库vllm中带有mows标识的镜像版本。

      image

    • 资源信息的资源类型处选择EAS资源组资源配额

    • 服务功能中打开模型权重服务的功能项,并进行内容如下配置。

      image

      配置项

      描述

      示例

      模型权重路径

      必选,模型权重路径,OSS/NAS/CPFS挂载路径。

      /mnt/data/llm_models/Qwen2-7B-Instruct/

      占用最大内存

      必选,MoWS 所使用内存资源(单实例),单位GB。

      200

      crc32文件路径

      可选,用于加载模型的时候进行数据校验。填写crc32 文件名称,上述配置的模型权重路径的相对路径。

      • 文件格式为[crc32] [relative_file_path]

      • 默认值:"crc32.txt"

      单击查看crc32文件生成方式

      在模型权重目录下,执行以下命令生成crc32文件:

      apt-get install -y libarchive-zip-perl
      find . -type f | xargs -I {} -P $(nproc) sh -c 'echo "$(crc32 {}) {}"' | sed 's|^\(.*\) \./|\1 |' > crc32.txt

      crc32.txt

      其内容为

      3d531b22 model-00004-of-00004.safetensors
      1ba28546 model-00003-of-00004.safetensors
      b248a8c0 model-00002-of-00004.safetensors
      09b46987 model-00001-of-00004.safetensors

      网卡类型

      可选,如果网卡硬件为 EIC 网卡,需要选择"EIC网卡"。

      EIC网卡

性能收益

Qwen3-8B的模型评测中,推理服务的冷启动时长TP99235秒降低至24秒,冷启动时长降幅89.8%;实例扩容时长降低至5.7秒,扩容时长降幅97.6%

image.png

Qwen3-32B的模型评测中,推理服务的冷启动时长953秒降低至82秒,冷启动时长降幅91.4%;实例扩容时长降低至17秒,扩容时长降幅98.2%

image.png