文档

什么是推理引擎DeepGPU-LLM

更新时间:

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。

产品简介

DeepGPU-LLM作为阿里云开发的一套推理引擎,具有易用性和广泛适用性,旨在优化大语言模型在GPU云服务器上的推理过程,通过优化和并行计算等技术手段,为您提供免费的高性能、低延迟推理服务。

DeepGPU-LLM的关联布局图如下所示:

image

功能介绍

DeepGPU-LLM的主要功能包括:

  • 支持多GPU并行(Tensor Parallel)功能。

  • 支持Llama 1/2系列、ChatGLM 1/2/3系列、Baichuan 1/2系列、通义千问Qwen系列等主流模型。

  • 支持fp16,以及int8/int4低精度推理(量化模式:目前支持权重量化和KV-Cache量化)。

  • 支持多卡之间通信优化。

  • 支持stream chat输出和chat直接对话功能。

基础环境依赖

DeepGPU-LLM所需的基础环境依赖如下所示:

类别

规格或版本

GPU规格

SM=70, 75, 80, 86, 89(例如A800、A30、A10、V100, T4等)

操作系统

Ubuntu 20.04

CUDA版本

11.7、11.8、12.1

PyTorch版本

1.13、2.0、2.1

OpenMPI

4.0.3版本及以上

安装包及相关文件说明

使用DeepGPU-LLM处理大语言模型(LLM)在GPU上的推理优化时,需要您提前准备如下安装包:

安装包名称

说明

  • deepgpu_llm-x.x.x+pt1.13cu117-py3-none-any.whl

  • deepgpu_llm-x.x.x+pt2.0cu117-py3-none-any.whl

  • deepgpu_llm-x.x.x+pt2.1cu121-py3-none-any.whl

LLM模型推理加速安装包。

  • x.x.x指待安装的DeepGPU-LLM版本号。

  • 支持PyTorch 1.13、PyTorch 2.0、PyTorch 2.1版本。

  • 支持单卡或多卡GPU推理。

LLM模型推理加速安装包中所包含的文件如下所示:

文件名称

说明

  • llama_model.py

  • chatglm_model.py

  • baichuan_model.py

  • qwen_model.py

  • deepgpu_utils.py

主流模型的推理依赖代码

  • huggingface_llama_convert

  • huggingface_glm_convert

  • huggingface_chatglm2_convert

  • huggingface_baichuan_convert

  • huggingface_qwen_convert

主流模型权重转换脚本

  • baichuan_cli

  • baichuan_hf_cli

  • chatglm_cli

  • chatglm_hf_cli

  • llama_cli

  • qwen_cli

安装包提供的可运行示例代码

说明

准备好模型后可以直接运行示例代码,通过--help可查看具体参数配置。

相关文档

在大语言模型推理场景下,如果您想通过推理引擎DeepGPU-LLM进行不同模型(例如Llama、ChatGLM、Baichuan、通义千问Qwen等模型)的推理优化,请参见安装并使用DeepGPU-LLM

  • 本页导读 (1)
文档反馈