背景信息
随着大语言模型(LLM)参数量呈现指数级增长(如开源模型DeepSeekV3-671B已达700GB+规模),模型加载耗时已成为影响推理服务效率的关键瓶颈。这一现象在以下场景中尤为突出:
弹性扩容场景:模型加载时间直接影响服务扩展的敏捷性。
多实例部署场景:并发从远端存储(OSS/NAS/CPFS)拉取模型导致带宽竞争,进一步降低模型加载效率。
针对上述挑战,PAI推理服务创新性地发布了模型权重服务功能(Model Weight Service, MoWS),其核心技术特征包括:
分布式缓存架构:利用节点内存资源构建权重缓存池。
高速传输机制:基于RDMA的机间互联实现低延迟数据传输。
智能分片策略:支持并行分片传输与完整性校验。
内存共享优化:实现单机多进程间零拷贝权重共享。
权重智能预取:利用闲置时间提前预读模型权重。
高效缓存策略:保证模型分片在实例间负载均衡。
实际部署表明,该方案在超大规模实例集群中可实现:
扩容速度提升 10 倍(对比传统拉取模式)。
带宽利用率提高60%+。
服务冷启动时间缩短至秒级。
通过充分利用多实例之间的带宽资源,实现模型权重的高效快速传输。模型权重服务不仅支持模型权重的本地缓存,还能够实现权重的跨实例共享。在处理大规模参数模型以及在大规模实例部署的场景中,MoWS能够显著提升服务的扩缩容效率和启动速度。
使用方式
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS。
单击部署服务,然后在自定义模型部署区域,单击自定义部署。
在自定义部署页面,配置以下关键参数,其他参数配置说明,请参见控制台自定义部署参数说明。
在环境信息的镜像配置中,选择官方镜像,选择镜像仓库vllm中带有mows标识的镜像版本。
在资源信息的资源类型处选择EAS资源组或资源配额。
在服务功能中打开模型权重服务的功能项,并进行内容如下配置。
配置项
描述
示例
模型权重路径
必选,模型权重路径,OSS/NAS/CPFS挂载路径。
/mnt/data/llm_models/Qwen2-7B-Instruct/
占用最大内存
必选,MoWS 所使用内存资源(单实例),单位GB。
200
crc32文件路径
可选,用于加载模型的时候进行数据校验。填写crc32 文件名称,上述配置的模型权重路径的相对路径。
文件格式为[crc32] [relative_file_path]
默认值:"crc32.txt"
crc32.txt
其内容为
3d531b22 model-00004-of-00004.safetensors 1ba28546 model-00003-of-00004.safetensors b248a8c0 model-00002-of-00004.safetensors 09b46987 model-00001-of-00004.safetensors
网卡类型
可选,如果网卡硬件为 EIC 网卡,需要选择"EIC网卡"。
非EIC网卡
性能收益
在Qwen3-8B的模型评测中,推理服务的冷启动时长TP99从235秒降低至24秒,冷启动时长降幅89.8%;实例扩容时长降低至5.7秒,扩容时长降幅97.6%。
在Qwen3-32B的模型评测中,推理服务的冷启动时长953秒降低至82秒,冷启动时长降幅91.4%;实例扩容时长降低至17秒,扩容时长降幅98.2%。