在ComfyUI中使用DeepGPU插件加速图片与视频生成_GPU云服务器(EGS)-阿里云帮助中心

在ComfyUI中进行AI绘图和视频生成时，为提升模型推理效率，可以安装并使用ComfyUI-deepgpu加速插件，该插件能显著缩短生成时间，最高可将性能提升5倍。

ComfyUI-deepgpu插件介绍

ComfyUI-deepgpu是一款免费插件，将阿里云DeepGPU推理加速技术以插件的形式集成至ComfyUI，提升在阿里云服务器上运行 ComfyUI工作流时的模型推理速度。该插件优势如下：

较高的性能提升：DeepGPU能够有效降低模型的推理时间。
较好的兼容与叠加能力：DeepGPU 可与 fp8、sage-attention、TeaCache 或 WaveSpeed 等其他流行的开源优化技术同时使用，可在享有社区最新成果的同时，获得额外的性能增益。
便捷的动态部署：与一些需要预先编译模型的优化方案不同，DeepGPU无需预编译，即时启用加速，并且在工作流中切换不同的图像或视频尺寸时，不会产生额外开销。

适用范围

支持的模型	推荐GPU型号
FLUX.1 系列 Qwen-Image 系列（包含nunchaku模型） Wan2.1 系列 Wan2.2 系列	NVIDIA L20（实例规格族：gn8is、ebmgn8is）。

使用限制

运行环境要求：ComfyUI必须部署在阿里云的云服务实例上，仅阿里云上的云服务实例可使用DeepGPU的加速能力。
插件兼容性：本插件兼容ComfyUI官方工作流及大多数第三方节点。但暂不支持由WanVideoWrapper插件提供的工作流。

安装插件

安装PyTorch依赖（推荐2.8.0版本）。

# 安装 PyTorch 及其相关组件
pip3 install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0

安装deepgpu-torch依赖。

Ubuntu

# 安装基础依赖库
apt-get install which curl iputils-ping -y

pip3 install deepgpu-torch==0.1.6+torch2.8.0cu128 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html

Alibaba Cloud Linux 3

# 安装基础依赖库
yum install -y which curl iputils

pip3 install deepgpu-torch==0.1.6+torch2.8.0cu128 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html

如果PyTorch版本不是2.8，请从官方源中选择与当前PyTorch版本相匹配的软件包进行安装。

下载并安装插件。

# 1. 切换到ComfyUI的自定义节点目录，使用时请替换为实际路径
cd ~/ComfyUI/custom_nodes/

# 2. 下载插件压缩包并解压
wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/nodes/20251013/ComfyUI-deepgpu.tar.gz
tar zxf ComfyUI-deepgpu.tar.gz

# 3. 安装插件的Python依赖
pip3 install deepgpu-comfyui==1.3.0 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/index.html

重启ComfyUI服务。

使用插件

要使本插件生效，需将ApplyDeepyTorchToModel节点添加到工作流中。该节点接收一个模型对象（MODEL），对其应用DeepGPU的优化策略，然后输出一个优化后的模型对象。

节点在工作流中的位置

为确保优化生效，ApplyDeepyTorchToModel 节点应遵循一个核心原则：将其放置在整个工作流最后一个对模型进行处理或加载的节点之后，但需在采样器（KSampler）之前。

例如在示例工作流中，ApplyDeepyTorchToModel在Load Diffusion Model节点之后

节点参数说明

参数	用途	默认值	说明
`enable`	是否启用DeepGPU优化	`true`	设置为 `false` 可临时禁用加速效果，便于进行性能对比。
`dynamic`	是否使用动态尺寸优化	`auto`	保持默认的 `auto` 即可。DeepGPU 会自动判断是否需要启用动态尺寸优化。设置为`true`表示关闭。
`attn`	Attention模块优化策略	`auto`	保持默认的 `auto` 即可。DeepGPU 会自动为当前模型选择最优的Attention优化方案。设置为`default`表示关闭。
`precision`	运算精度优化	`auto`	保持默认的 `auto` 即可。DeepGPU 会自动选择最合适的计算精度以平衡性能和画质。设置为`default`表示关闭。

典型应用场景与工作流示例

本章节提供了多个即刻可用的工作流（Workflow）示例，覆盖主流模型，并展示了如何将DeepGPU与社区热门插件协同使用。

可下载对应示例的.json 文件，并将其拖拽到ComfyUI界面中直接加载使用。

场景一：加速FLUX.1模型

基础加速：在Load Diffusion Model后直接接入ApplyDeepyTorchToModel。
下载示例工作流文件
叠加LoRA：在最后一个LoraLoaderModelOnly 节点后接入 ApplyDeepyTorchToModel。
下载示例工作流文件
叠加TeaCache插件：在TeaCache节点后接入 ApplyDeepyTorchToModel。
下载示例工作流文件
叠加PuLID插件：在Apply PuLID Flux节点后接入ApplyDeepyTorchToModel。
下载示例工作流文件
叠加WaveSpped插件：在Apply First Block Cache节点后接入ApplyDeepyTorchToModel。
下载示例工作流文件

场景二：加速Wan2.1视频生成

基础加速：在Load Diffusion Model节点后接入 ApplyDeepyTorchToModel。
下载示例工作流文件
叠加TeaCache插件：在TeaCache节点后接入ApplyDeepyTorchToModel。
下载示例工作流文件

场景三：加速Wan2.2视频生成

基础加速: 在处理模型的最后一个节点后、送入 KSampler 之前，接入 ApplyDeepyTorchToModel。
下载示例工作流文件

常见问题

安装插件后，ComfyUI启动报错或找不到ApplyDeepyTorchToModel节点怎么办？
请按以下步骤排查
1. 确认重启：确保在安装插件后已完全重启ComfyUI服务。
2. 检查路径：确认 ComfyUI-deepgpu 文件夹是否被正确解压到了 ComfyUI/custom_nodes/ 目录下。
3. 检查依赖：重新安装deepgpu-torch和deepgpu-comfyui依赖，检查是否有报错。
4. 版本冲突：检查PyTorch版本是否与安装的 deepgpu-torch版本后缀（如 +torch2.8.0cu128）严格对应。
使用DeepGPU加速后，生成的图像或视频质量会下降吗？
在默认的 auto 配置下，DeepGPU旨在实现无损或体感无损的加速。它会自动选择最优的精度策略，在绝大多数情况下，不会观察到肉眼可见的质量差异。
我的GPU型号不在推荐列表里，还能使用吗？
可以。推荐列表是经过深度优化和测试、性能提升最显著的型号。其他 NVIDIA GPU同样可以运行并获得加速效果，只是提升幅度可能会有所不同。
如何更新DeepGPU插件？
访问官方发布渠道获取最新的 .tar.gz 压缩包和 pip install 命令，然后重新安装插件（建议先删除旧的ComfyUI-deepgpu 文件夹），即可覆盖并更新到最新版本。