GPU 云服务器部署 Qwen2.5 模型
手动部署
60
https://www.aliyun.com/solution/tech-solution/qwen2-5-for-platforms
方案概览
本方案旨在介绍如何将 Qwen2.5 开源模型部署到 GPU 云服务器。在 GPU 云服务器上安装与配置vLLM 和 Open WebUI。vLLM 负责托管 Qwen2.5 模型,Open WebUI 则为用户提供友好的交互界面。GPU 云服务器凭借其高性能并行计算架构,可以显著加速大模型的推理过程,特别是在处理大规模数据和高并发场景,可以有效提升推理速度和推理吞吐。专有网络 VPC 和交换机用于资源隔离和安全管理,确保数据传输的安全性和网络的高可靠性。方案以 Qwen2.5:7B 为例进行演示,用户可以根据实际需求选择其他参数规模的 Qwen2.5 模型,并相应调整实例规格配置。
方案架构
按照本方案提供的配置完成部署后,会在阿里云上搭建一个如下图所示的运行环境。实际部署时,您可根据具体的资源规划调整部分配置,但最终的运行环境将与下图展示的架构相似。
本方案的技术架构包括以下云服务:
1 个 GPU 云服务器:用于部署模型服务与 Web 应用。
1 个专有网络 VPC:将 GPU 云服务器实例部署在专有网络中。
1 台交换机:将 GPU 云服务器实例部署在交换机中。
准备账号
环境准备
10
在开始部署模型之前,需要进行一系列的环境准备工作。这些步骤包括创建专有网络 VPC 和交换机、配置安全组、创建 GPU 云服务器实例。
部署 vLLM 和 Open WebUI 应用
45
接下来我们使用 vLLM 框架来部署 Qwen2.5 模型,使用 Open WebUI 调用模型服务。vLLM 是一个易于使用的大语言模型推理框架,具有先进的服务吞吐量、高效的注意力键值内存管理、连续批处理输入请求、优化的 CUDA 内核等功能。
Open WebUI 是一款开源项目,提供了一个直观的图形用户界面(GUI),极大地简化了模型的管理和操作流程。通过 Open WebUI,用户可以轻松地与部署的 Qwen2.5 模型进行交互。
单击云服务器实例右侧的远程连接。
在远程连接弹窗中点击立即登录按钮。
输入密码并点击确定按钮,通过 Workbench 远程连接至 ECS 后台
如图所示 GPU 驱动尚未完成安装,请等待 10-20 分钟,安装完成后实例将自动重启。
GPU 驱动完成安装后,再次登录实例。执行以下脚本部署 vLLM 和 Open WebUI 两个容器。脚本还会在 vLLM 容器中部署 Qwen2.5 模型。
curl -fsSL https://help-static-aliyun-doc.aliyuncs.com/install-script/qwen2.5-for-platforms/install.sh|bash
部署 vLLM 和 Open WebUI 大约需要 40 分钟左右,请您耐心等待。
如果未按照推荐规格选择实例,可能出现显存不足的问题。
报错信息如下,提示 GPU 显存不足。
torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 296.00 MiB. GPU 0 has a total capacity of 14.74 GiB of which 242.12 MiB is free. Process 82327 has 14.50 GiB memory in use. Of the allocated memory 14.31 GiB is allocated by PyTorch, and 47.14 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation. See documentation for Memory Management (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
显存不足问题的几种解决方法:
更改实例规格,选择具有更高 GPU 显存的实例,或者采用多块 GPU 进行分布式推理。
选择参数规模更小的模型,例如 Qwen2.5:1.5B 或者 Qwen2.5:3B 的模型。
选择 GPTQ 或者 AWP 量化后的模型,通过降低模型权重的精度来减少显存消耗,同时尽可能保持模型的性能。参考量化模型效果评估,量化对模型的关键指标(如准确率、推断速度)的影响相对有限。
应用体验
3
打开云服务器 ECS 控制台,定位当前创建的 GPU 云服务器实例,复制公网 IP。
在浏览器中访问
http://<ECS公网IP>:3000
,登录 Open WebUI。如果在下拉列表中未显示可用的模型,表明 vLLM 容器中还在下载模型。请稍等几分钟,然后尝试刷新页面以更新模型列表。模型部署成功后如下图所示。
可以在对话框中与系统进行交互,调用模型服务获得相应的响应。
Qwen2.5 模型具备支持超过 29 种语言的能力,例如能够用法语进行自我介绍。
由于融入了领域专业专家模型,Qwen2.5 的知识广度和在编码与数学领域的能力都显著提升。我们可以提出一道数学题,Qwen2.5 能够给出正确的解答。
点击
图标,选择本地文档上传,可以使用我们提供的“百炼”手机详细参数.docx。
针对当前文档撰写提示词“总结文档内容”。
可以看到 Qwen2.5 模型成功提炼出了文档的关键信息。
Open WebUI 中文设置:
点击右上角
图标,在展开的下拉列表中选择 Settings。
在 Settings 弹窗中,选择 General > Language。
在展开的下拉列表中找到并点击 Chinese(简体中文)。
页面会自动刷新,此时 Open WebUI 的界面语言已切换为简体中文,点击保存按钮后关闭弹窗。
完成及清理
2