大模型权重加载共享加速-模型权重服务-人工智能平台 PAI-阿里云

背景信息

随着大语言模型（LLM）参数量呈现指数级增长（如开源模型DeepSeekV3-671B已达700GB+规模），模型加载耗时已成为影响推理服务效率的关键瓶颈。这一现象在以下场景中尤为突出：

针对上述挑战，PAI推理服务创新性地发布了模型权重服务功能（Model Weight Service, MoWS），其核心技术特征包括：

实际部署表明，该方案在超大规模实例集群中可实现：

通过充分利用多实例之间的带宽资源，实现模型权重的高效快速传输。模型权重服务不仅支持模型权重的本地缓存，还能够实现权重的跨实例共享。在处理大规模参数模型以及在大规模实例部署的场景中，MoWS能够显著提升服务的扩缩容效率和启动速度。

在自定义部署页面，配置以下关键参数，其他参数配置说明，请参见控制台自定义部署参数说明。

在服务功能中打开模型权重服务的功能项，并进行内容如下配置。

配置项	描述	示例
模型权重路径	必选，模型权重路径，OSS/NAS/CPFS挂载路径。	`/mnt/data/llm_models/Qwen2-7B-Instruct/`
占用最大内存	必选，MoWS 所使用内存资源（单实例），单位GB。	200
crc32文件路径	可选，用于加载模型的时候进行数据校验。填写crc32 文件名称，上述配置的模型权重路径的相对路径。文件格式为[crc32] [relative_file_path] 默认值："crc32.txt" 单击查看crc32文件生成方式在模型权重目录下，执行以下命令生成crc32文件： `apt-get install -y libarchive-zip-perl find . -type f \| xargs -I {} -P $(nproc) sh -c 'echo "$(crc32 {}) {}"' \| sed 's\|^$.*$ \./\|\1 \|' > crc32.txt`	crc32.txt 其内容为 `3d531b22 model-00004-of-00004.safetensors 1ba28546 model-00003-of-00004.safetensors b248a8c0 model-00002-of-00004.safetensors 09b46987 model-00001-of-00004.safetensors`
网卡类型	可选，如果网卡硬件为 EIC 网卡，需要选择"EIC网卡"。	非EIC网卡

在Qwen3-8B的模型评测中，推理服务的冷启动时长TP99从235秒降低至24秒，冷启动时长降幅89.8%；实例扩容时长降低至5.7秒，扩容时长降幅97.6%。

在Qwen3-32B的模型评测中，推理服务的冷启动时长953秒降低至82秒，冷启动时长降幅91.4%；实例扩容时长降低至17秒，扩容时长降幅98.2%。