安装并使用DeepGPU-LLM进行大语言模型的推理服务_GPU云服务器(EGS)-阿里云帮助中心

在处理大语言模型（LLM）任务中，您可以根据实际业务部署情况，选择在不同环境（例如GPU云服务器环境或Docker环境）下安装推理引擎DeepGPU-LLM，然后通过使用DeepGPU-LLM实现大语言模型（例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型）在GPU上的高性能推理优化功能。

说明

LLM模型的特性适用于GPU计算型实例，更多信息，请参见GPU计算型（gn系列）。本文以GPU计算型实例规格gn7i为例。

在GPU云服务器环境下安装DeepGPU-LLM

部分云市场镜像中已预装了DeepGPU-LLM工具，在创建GPU实例时，您可以一键获取预装DeepGPU-LLM的镜像来自动安装DeepGPU-LLM；也可以先购买GPU实例，然后手动安装DeepGPU-LLM。

自动方式（选择云市场镜像）

获取云市场镜像并创建GPU实例。

云市场镜像中预装了DeepGPU-LLM工具，您可以通过以下两个入口获取云市场镜像。

通过ECS购买页面获取

前往实例创建页。
选择自定义购买页签。

按需选择付费类型、地域、实例规格、镜像等配置。

需要注意的参数项设置如下图所示，其他配置项参数的详细说明，请参见配置项说明。

实例和镜像.png

①实例：以ecs.gn7i-c8g1.2xlarge，8 vCPU 30 GiB实例规格为例。

②镜像：以选择云市场镜像中的镜像为例，该镜像是阿里云免费提供的基于大语言模型LLM场景的AI推理解决方案镜像。在创建GPU计算型实例时，云市场镜像中提供了更多基于大语言模型LLM场景的AI推理解决方案镜像供您选择，具体镜像如下：

更多镜像及版本信息

支持的实例规格	预装大语言模型框架的镜像	最新版本
GPU计算型实例	预装deepgpu-llm的centos7.9系统	24.3
	预装deepgpu-llm的ubuntu 20.04系统	24.4
	预装deepgpu-llm的ubuntu 22.04系统	24.3
	部署DeepGPU-LLM的Ubuntu镜像	V 1.1.3
	deepgpu-llm-inference-ubuntu2004	V 0.1
	预装deepgpu-llm的centos 8.5系统（uefi erdma）	24.3
	预装deepgpu-llm的centos7.9系统（uefi erdma）	24.3
	预装deepgpu-llm的ubuntu 20.04系统（uefi + erdma）	24.3.1
	预装deepgpu-llm的ubuntu 22.04系统（uefi + erdma）	24.3

说明

仅部分规格支持带有uefi和erdma的镜像，例如ebmgn7ix、ebmgn8is等，请您以实际控制台选择为准。

公网IP：选中分配公网IPv4地址，带宽计费方式选择按使用流量，带宽峰值选择100Mbps，以加快模型下载速度。

按照页面提示操作，单击确定下单。
在支付页面查看实例的总费用，如无疑问，按照提示完成支付。

通过云市场获取

前往阿里云云市场页面。
在页面的搜索框输入deepgpu-llm并按回车键。

选择需要的镜像类型，单击详情。

以选择预装deepgpu-llm的ubuntu 22.04系统镜像为例。

云市场镜像中提供了更多基于大语言模型LLM场景的AI推理解决方案镜像供您选择，具体镜像如下：

更多镜像及版本信息

支持的实例规格	预装大语言模型框架的镜像	最新版本
GPU计算型实例	预装deepgpu-llm的centos7.9系统	24.3
	预装deepgpu-llm的ubuntu 20.04系统	24.4
	预装deepgpu-llm的ubuntu 22.04系统	24.3
	部署DeepGPU-LLM的Ubuntu镜像	V 1.1.3
	deepgpu-llm-inference-ubuntu2004	V 0.1
	预装deepgpu-llm的centos 8.5系统（uefi erdma）	24.3
	预装deepgpu-llm的centos7.9系统（uefi erdma）	24.3
	预装deepgpu-llm的ubuntu 20.04系统（uefi + erdma）	24.3.1
	预装deepgpu-llm的ubuntu 22.04系统（uefi + erdma）	24.3

说明

仅部分规格支持带有uefi和erdma的镜像，例如ebmgn7ix、ebmgn8is等，请您以实际控制台选择为准。

在镜像详情页，单击自定义购买。
说明
购买镜像时，系统镜像本身是免费的，您只需要支付GPU云服务器的费用。
在实例购买页的镜像区域，查看云市场镜像页签下是否已选中所购买镜像。
下图以购买的镜像被选中为例，如果镜像未被选中，则您需要继续单击重新选择镜像，选择所需镜像。
在实例购买页，配置其他参数并创建GPU实例。
其中，公网IP选中分配公网IPv4地址，带宽计费方式选择按使用流量，带宽峰值选择100Mbps，以加快模型下载速度。其他更多配置项信息，请参见配置项说明。

远程连接已创建的GPU实例。
具体操作，请参见通过密码或密钥认证登录Linux实例。
执行以下命令，查看DeepGPU-LLM安装状态及版本。
```
sudo pip list | grep deepgpu-llm
```
显示结果如下，表示DeepGPU-LLM已成功安装且当前版本为24.3。
说明
您也可以执行sudo pip show -f deepgpu-llm命令查看已安装的DeepGPU-LLM相关详细信息。
（可选）升级DeepGPU-LLM。
如果安装的DeepGPU-LLM版本过低，不满足您业务需求，您可以安装高版本的DeepGPU-LLM来实现升级操作。
1. 进入DeepGPU-LLM安装包。
2. 找到待安装的DeepGPU-LLM包，右键单击复制链接地址获取安装包路径。
3. 执行以下命令，安装高版本的DeepGPU-LLM。
  本示例以下载deepgpu_llm-24.3+pt2.1cu121-py3-none-any.whl为例，您可以替换成实际需要的DeepGPU-LLM版本。
```
sudo wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm-24.3%2Bpt2.1cu121-py3-none-any.whl
sudo pip install deepgpu_llm-24.3+pt2.1cu121-py3-none-any.whl
```

手动方式（选择公共镜像）

先创建GPU实例，然后在该GPU实例上安装DeepGPU-LLM。本文以选择公共镜像中的Ubuntu 22.04 64位系统或Alibaba Cloud Linux 3系统的镜像为例。

基于Ubuntu 22.04系统

创建GPU实例。
1. 前往实例创建页。
2. 选择自定义购买页签。
3. 按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。
  需要注意的参数项设置如下图所示，其他配置项参数的详细说明，请参见配置项说明。
  - 实例：以ecs.gn7i-c8g1.2xlarge 8 vCPU 30 GiB实例规格为例。
  - 镜像：在公共镜像中选择Ubuntu 22.04 64位。您可以选中安装GPU驱动选项同步安装GPU驱动、CUDA和CUDNN。
  - 公网IP：选中分配公网IPv4地址，带宽计费方式选择按使用流量，带宽峰值选择100Mbps，以加快模型下载速度。
4. 按照页面提示操作，单击确定下单。
5. 在支付页面查看实例的总费用，如无疑问，按照提示完成支付。
（条件必选）如果创建GPU实例时无法选中或忘记选中安装GPU驱动项，手动安装GPU实例的Tesla驱动和CUDA Toolkit。
具体操作，请参见在GPU计算型实例中手动安装Tesla驱动（Linux）和安装CUDA。
远程连接GPU实例。
具体操作，请参见通过密码或密钥认证登录Linux实例。

依次执行以下命令，配置环境变量。

export PATH=/usr/local/cuda-12.4/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH

依次执行以下命令，查看GPU实例的驱动以及CUDA是否安装成功。
```
nvidia-smi
nvcc -V
```
显示结果如下所示，表示驱动和CUDA已安装成功。
（条件必选）如果您的GPU实例规格族为ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex时，安装与驱动版本对应的nvidia-fabricmanager服务。
具体操作，请参见安装nvidia-fabricmanager服务。

执行以下命令，安装DeepGPU-LLM的部分依赖项。

sudo apt-get update
sudo apt-get -y install python3.10 python3-pip openmpi-bin libopenmpi-dev curl vim

执行以下命令，安装DeepGPU-LLM。
说明
下载和安装过程需要较长时间，请您耐心等待。
根据所需DeepGPU-LLM版本和环境依赖PyTorch版本、CUDA版本，选择合适的DeepGPU-LLM安装包。如何获取最新DeepGPU-LLM版本号，请参见DeepGPU-LLM加速安装包。
```
sudo pip3 install deepgpu_llm=={DeepGPU-LLM版本号}+{PyTorch版本}{CUDA版本} \
    -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
```
例如{DeepGPU-LLM版本号}为24.7.2、{PyTorch版本}为pt2.4、{CUDA版本}为cu124表示安装24.7.2版本的DeepGPU-LLM。
```
sudo pip3 install deepgpu_llm==24.7.2+pt2.4cu124 \
    -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
```
执行以下命令，查看DeepGPU-LLM安装状态及版本。
```
sudo pip list | grep deepgpu-llm
```
显示结果如下，表示DeepGPU-LLM已成功安装且当前版本为24.7.2。

基于Alibaba Cloud Linux 3系统

创建GPU实例。
1. 前往实例创建页。
2. 选择自定义购买页签。
3. 按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。
  需要注意的参数项设置如下图所示，其他配置项参数的详细说明，请参见配置项说明。
  - 实例：以ecs.gn7i-c8g1.2xlarge实例规格为例。
  - 镜像：在公共镜像中选择Alibaba Cloud Linux 3.2014 LTS 64位，同时选中安装GPU驱动选项以同步安装GPU驱动、CUDA和CUDNN。
  - 公网IP：选中分配公网IPv4地址，带宽计费方式选择按使用流量，带宽峰值选择100Mbps，以加快模型下载速度。
4. 按照页面提示操作，单击确定下单。
5. 在支付页面查看实例的总费用，如无疑问，按照提示完成支付。
远程连接已创建的GPU实例。
具体操作，请参见通过密码或密钥认证登录Linux实例。
依次执行以下命令，查看GPU实例的驱动以及CUDA是否安装成功。
```
nvidia-smi
nvcc -V
```

执行以下命令，安装DeepGPU-LLM的部分依赖项。

sudo yum install epel-release
sudo yum update
sudo yum install openmpi3 openmpi3-devel curl
sudo wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
sudo chmod +x Miniconda3-latest-Linux-x86_64.sh
sudo ./Miniconda3-latest-Linux-x86_64.sh

执行以下命令，修改环境变量。

export PATH=/usr/lib64/openmpi3/bin:$PATH
export LD_LIBRARY_PATH=/usr/lib64/openmpi3/lib:$LD_LIBRARY_PATH

执行以下命令，使能和配置Miniconda环境，并在该环境中安装Python。
本示例以安装Python 3.10为例，如果需要安装Python 3.9，请您自行配置。
```
sudo su
/root/miniconda3/bin/conda init
source ~/.bashrc 
conda create -n py310 python=3.10
conda activate py310 
```
执行以下命令，安装DeepGPU-LLM。
说明
下载和安装过程需要较长时间，请您耐心等待。
根据所需DeepGPU-LLM版本和环境依赖PyTorch版本、CUDA版本，选择合适的DeepGPU-LLM安装包。如何获取最新DeepGPU-LLM版本号，请参见DeepGPU-LLM加速安装包。
```
pip3 install deepgpu_llm==24.7.2+pt2.4cu124 \
    -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
```
执行以下命令，查看DeepGPU-LLM安装状态及版本。
```
pip list | grep deepgpu-llm
```
显示结果如下，表示DeepGPU-LLM已成功安装且当前版本为24.7。

在Docker环境下安装DeepGPU-LLM

手动安装方式

准备Docker环境。

执行以下命令，安装或升级docker-ce。

基于Ubuntu操作系统

sudo apt update
sudo apt remove docker docker-engine docker-ce docker.io containerd runc
sudo apt install apt-transport-https ca-certificates curl gnupg-agent software-properties-common
sudo curl -fsSL https://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -
sudo apt-key fingerprint 0EBFCD88
sudo add-apt-repository "deb [arch=amd64] https://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"
sudo apt update
sudo apt install docker-ce
docker -v

基于Alibaba Cloud Linux系统

sudo yum remove docker docker-client docker-client-latest docker-common docker-latest docker-latest-logrotate docker-logrotate docker-engine
sudo yum install -y yum-utils
sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
sudo yum install docker-ce docker-ce-cli containerd.io
sudo systemctl start docker
sudo systemctl enable docker

如果执行上述命令安装失败，您可以继续执行以下命令安装或升级docker-ce。

yum-config-manager --add-repo https://mirrors.tuna.tsinghua.edu.cn/docker-ce/linux/centos/docker-ce.repo
sed -i 's+https://download.docker.com+https://mirrors.tuna.tsinghua.edu.cn/docker-ce+' /etc/yum.repos.d/docker-ce.repo

执行以下命令，安装nvidia-container-toolkit。

基于Ubuntu操作系统

sudo curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list \
  && \
    sudo apt-get update

sudo apt-get install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

基于Alibaba Cloud Linux系统

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
yum clean expire-cache
yum install -y nvidia-docker2
systemctl restart docker

如需了解更多信息，请参见Installing the NVIDIA Container Toolkit。

执行以下命令，在Docker环境中拉取并启用Docker镜像。

本示例以拉取pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel镜像为例。

sudo docker pull pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel
sudo docker run -ti --gpus all --name="deepgpu_llm" --network=host \
           -v /root/workspace:/root/workspace \
           --shm-size 5g pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel

主要参数说明

参数项	说明
`--shm-size`	指定容器的共享内存大小，其大小会影响Triton服务器部署。例如：`--shm-size 5g`表示将共享内存大小设置为5 GB。您可以根据需要调整此值，以满足您的模型推理所需的内存需求。
`-v /root/workspace:/root/workspace`	将主机目录映射到Docker中的相应目录，使得主机和Docker之间可以共享文件，请根据您实际环境情况进行映射。
`pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel`	PyTorch的Docker映像标签

执行以下命令，安装依赖库。
```
apt update
apt install openmpi-bin libopenmpi-dev curl
```
上述命令安装的openmpi-bin提供了OpenMPI、libopenmpi-dev软件包以及curl软件包。

安装DeepGPU-LLM。

根据所需的DeepGPU-LLM版本和依赖PyTorch版本，通过pip3 install命令安装DeepGPU-LLM。如何获取最新DeepGPU-LLM版本号，请参见DeepGPU-LLM加速安装包。

sudo pip3 install deepgpu_llm=={DeepGPU-LLM版本号}+{PyTorch版本}{CUDA版本} \
    -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

例如{DeepGPU-LLM版本号}为24.3、{PyTorch版本}为pt2.1、{CUDA版本}为cu121表示安装24.3版本的DeepGPU-LLM。

sudo pip3 install deepgpu_llm==24.3+pt2.1cu121 \
    -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

执行以下命令，查看DeepGPU-LLM安装状态及版本。
```
sudo pip list | grep deepgpu-llm
```
显示结果如下，表示DeepGPU-LLM已成功安装且当前版本为24.3。

容器镜像安装方式

使用DeepGPU-LLM容器镜像可以快速安装DeepGPU-LLM，您无需深入了解底层的硬件优化细节，该镜像拉取完成后，无需额外配置即可开箱即用。

获取DeepGPU-LLM容器镜像。

登录容器镜像服务控制台。
在左侧导航栏，单击制品中心。

在仓库名称搜索框，搜索deepgpu选择目标镜像egs/deepgpu-llm。

DeepGPU-LLM容器镜像大概每3个月内更新一次。镜像详情如下所示：

镜像名称

组件信息

镜像地址

适用的GPU实例

DeepGPU-LLM

DeepGPU-LLM：24.3
Python：3.10
PyTorch：2.1.0
CUDA：12.1.1
cuDNN：8.9.0.131
基础镜像：Ubuntu 22.04

egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/deepgpu-llm:24.3-pytorch2.1-cuda12.1-cudnn8-ubuntu22.04

DeepGPU-LLM镜像仅支持以下GPU实例选择，更多信息，请参见GPU计算型（gn系列）。

gn6e、ebmgn6e
gn7i、ebmgn7i、ebmgn7ix
gn7e、ebmgn7e、ebmgn7ex

安装DeepGPU-LLM。
Docker环境安装完成后，拉取已获取的DeepGPU-LLM容器镜像来安装DeepGPU-LLM。具体操作，请参见安装DeepGPU-LLM操作步骤。

使用DeepGPU-LLM运行模型

下载模型前，请确认您已成功登录GPU实例。更多信息，请参见连接方式概述。

下载开源模型。
modelscope是阿里达摩院提供的开源模型平台，以下载modelscope格式的通义千问-7B-Chat模型为例，您可以通过以下任一方式下载该模型。
重要
下载模型过程中，如果显示内存不足导致模型下载失败，您可以通过扩容云盘来解决，具体操作，请参见云盘扩容指引。
git lfs clone命令方式
1. 进入ModelScope官网，搜索模型名称（例如qwen）。
2. 在搜索页面的模型库区域，单击通义千问-7B-Chat。
3. 找到modelscope的专属模型名并复制模型ID。
4. 执行以下命令，构建下载命令并下载模型ID。
```
sudo git-lfs clone https://modelscope.cn/qwen/Qwen-7B-Chat.git
```
ModelScope库中的snapshot_download方式
1. 进入ModelScope官网，搜索模型名称（例如qwen）。
2. 在搜索页面的模型库区域，单击通义千问-7B-Chat。
3. 找到modelscope的专属模型名并复制模型ID。
4. 准备download_from_modelscope.py脚本。
  脚本示例
  import argparse import shutil from modelscope.hub.snapshot_download import snapshot_download parser = argparse.ArgumentParser(description='download from modelscope') parser.add_argument('--model_name', help='the download model name') parser.add_argument('--version', help='the model version') args = parser.parse_args() base_dir = '/root/deepgpu/modelscope' model_dir = snapshot_download(args.model_name, cache_dir=base_dir,revision=args.version) print(model_dir)
5. 执行以下命令，下载模型。
  模型下载前，您需要在通义千问-7B-Chat页面的模型文件页签下查看模型版本号。本命令以模型版本号为v.1.1.7为例。
```
python3 download_from_modelscope.py --model_name Qwen/Qwen-7B-Chat --version v1.1.7
```
运行Qwen模型推理对话功能。
DeepGPU-LLM提供了llama_cli、qwen_cli、baichuan_cli和chatglm_cli等脚本帮助您直接运行相应类别的LLM模型，具体运行命令可以通过--help查看具体配置项。例如：
以运行qwen_cli脚本加载qwen-7b-chat模型或qwen1.5-7b-chat模型推理进行对话为例。示例命令如下：
说明
--model_dir后的路径请您替换成模型成功下载后的实际路径。
qwen-7b-chat模型
```
qwen_cli --model_dir /home/ecs-user/Qwen-7B-Chat --tp_size 1 --precision fp16
```
调用完成后，您可以输入内容和Qwen模型进行对话。例如：
qwen1.5-7b-chat模型
```
qwen_cli --model_dir /home/ecs-user/Qwen1.5-7B-Chat --tp_size 1 --precision fp16
```
调用完成后，您可以输入内容和Qwen模型进行对话。例如：

（可选）模型转换并运行模型推理对话功能。

对于某些受限场景，可以提前做好模型转换，然后部署运行模型的推理对话功能即可。

转换模型格式。

以qwen1.5-7b-chat模型为例，其转换命令如下所示：

huggingface_model_convert --in_file /root/Qwen1.5-7B-Chat --saved_dir /root/qwen1.5-7b-chat --infer_gpu_num 1 --weight_data_type fp16 --model_name qwen1.5-7b-chat

参数说明

参数项	说明
`huggingface_model_convert`	本参数表示模型的转换脚本。说明如果无法找到该命令，说明DeepGPU版本较老，您可以升级当前DeepGPU-LLM版本，具体操作，请参见（可选）升级DeepGPU-LLM；或者根据LLM模型类型，将`model`字段替换为具体的LLM名称，然后进行模型转换，具体查看`help`调整相应参数。
`--in_file`	指向下载的模型目录。上述示例仅供参考，请替换为模型成功下载后的实际路径。
`--saved_dir`	指向生成的模型目录。上述示例仅供参考，请替换为转换模型格式后实际保存路径。
`--infer_gpu_num`	设定推理运行的GPU数量（即模型切分份数）。
`--weight_data_type`	设置模型权重使用的数据类型，与预期计算的类型一致，可选fp16和bf16。
`--model_name`	模型名称。

执行以下命令，运行Qwen模型推理对话功能。
```
qwen_cli --tokenizer_dir /root/Qwen1.5-7B-Chat --model_dir /root/qwen1.5-7b-chat/1-gpu/  --tp_size 1 --precision fp16
```
参数说明
参数项
说明
--tp_size
配置的参数需要与转换时--infer_gpu_num设定的参数一致。
--precision
用于设置是否要对权重进行量化，可选fp16、int8和int4。

常见问题

问题：在Ubuntu 20.04系统上GPU上，执行以下命令安装DeepGPU-LLM时失败。

apt-get update
apt-get -y install python3-pip openmpi-bin libopenmpi-dev curl vim
pip3 install deepgpu_llm -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

原因及措施：由于apt无法直接安装python 3.10，直接放弃python 3.10安装，安装其他组件即可。安装过程中可能会被动安装gdm3模块导致系统变为图形界面，而非默认的命令行，您可以通过以下命令关闭。
```
systemctl disable gdm3
reboot
```

联系我们

如果您在安装和使用DeepGPU-LLM过程中遇到问题，欢迎加入钉钉群23210030587寻求帮助（钉钉通讯客户端下载地址）。

参数项	说明
`--tp_size`	配置的参数需要与转换时`--infer_gpu_num`设定的参数一致。
`--precision`	用于设置是否要对权重进行量化，可选fp16、int8和int4。