在ComfyUI中进行AI绘图和视频生成时,为提升模型推理效率,可以安装并使用ComfyUI-deepgpu加速插件,该插件能显著缩短生成时间,最高可将性能提升5倍。
ComfyUI-deepgpu插件介绍
ComfyUI-deepgpu是一款免费插件,将阿里云DeepGPU推理加速技术以插件的形式集成至ComfyUI,提升在阿里云服务器上运行 ComfyUI工作流时的模型推理速度。该插件优势如下:
- 较高的性能提升:DeepGPU能够有效降低模型的推理时间。 
- 较好的兼容与叠加能力:DeepGPU 可与 - fp8、- sage-attention、- TeaCache或- WaveSpeed等其他流行的开源优化技术同时使用,可在享有社区最新成果的同时,获得额外的性能增益。
- 便捷的动态部署:与一些需要预先编译模型的优化方案不同,DeepGPU无需预编译,即时启用加速,并且在工作流中切换不同的图像或视频尺寸时,不会产生额外开销。 
适用范围
| 支持的模型 | 推荐GPU型号 | 
| 
 | 
使用限制
- 运行环境要求:ComfyUI必须部署在阿里云的云服务实例上,仅阿里云上的云服务实例可使用DeepGPU的加速能力。 
- 插件兼容性:本插件兼容ComfyUI官方工作流及大多数第三方节点。但暂不支持由 - WanVideoWrapper插件提供的工作流。
安装插件
- 安装PyTorch依赖(推荐 - 2.8.0版本)。- # 安装 PyTorch 及其相关组件 pip3 install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0
- 安装 - deepgpu-torch依赖。- Ubuntu- # 安装基础依赖库 apt-get install which curl iputils-ping -y pip3 install deepgpu-torch==0.1.6+torch2.8.0cu128 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html- Alibaba Cloud Linux 3- # 安装基础依赖库 yum install -y which curl iputils pip3 install deepgpu-torch==0.1.6+torch2.8.0cu128 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/deepytorch/index.html- 如果PyTorch版本不是2.8,请从官方源中选择与当前PyTorch版本相匹配的软件包进行安装。 
- 下载并安装插件。 - # 1. 切换到ComfyUI的自定义节点目录,使用时请替换为实际路径 cd ~/ComfyUI/custom_nodes/ # 2. 下载插件压缩包并解压 wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/nodes/20251013/ComfyUI-deepgpu.tar.gz tar zxf ComfyUI-deepgpu.tar.gz # 3. 安装插件的Python依赖 pip3 install deepgpu-comfyui==1.3.0 -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/index.html
- 重启ComfyUI服务。 
使用插件
要使本插件生效,需将ApplyDeepyTorchToModel节点添加到工作流中。该节点接收一个模型对象(MODEL),对其应用DeepGPU的优化策略,然后输出一个优化后的模型对象。
节点在工作流中的位置
为确保优化生效,ApplyDeepyTorchToModel 节点应遵循一个核心原则:将其放置在整个工作流最后一个对模型进行处理或加载的节点之后,但需在采样器(KSampler)之前。
例如在示例工作流中,ApplyDeepyTorchToModel在Load Diffusion Model节点之后

节点参数说明
| 参数 | 用途 | 默认值 | 说明 | 
| 
 | 是否启用DeepGPU优化 | 
 | 设置为  | 
| 
 | 是否使用动态尺寸优化 | 
 | 保持默认的  | 
| 
 | Attention模块优化策略 | 
 | 保持默认的  | 
| 
 | 运算精度优化 | 
 | 保持默认的  | 
典型应用场景与工作流示例
本章节提供了多个即刻可用的工作流(Workflow)示例,覆盖主流模型,并展示了如何将DeepGPU与社区热门插件协同使用。
可下载对应示例的.json 文件,并将其拖拽到ComfyUI界面中直接加载使用。场景一:加速FLUX.1模型
- 基础加速:在 - Load Diffusion Model后直接接入- ApplyDeepyTorchToModel。 
- 叠加LoRA:在最后一个 - LoraLoaderModelOnly节点后接入- ApplyDeepyTorchToModel。 
- 叠加TeaCache插件:在 - TeaCache节点后接入- ApplyDeepyTorchToModel。 
- 叠加PuLID插件:在 - Apply PuLID Flux节点后接入- ApplyDeepyTorchToModel。 
- 叠加WaveSpped插件:在 - Apply First Block Cache节点后接入- ApplyDeepyTorchToModel。 
场景二:加速Wan2.1视频生成
- 基础加速:在 - Load Diffusion Model节点后接入- ApplyDeepyTorchToModel。 
- 叠加TeaCache插件:在 - TeaCache节点后接入- ApplyDeepyTorchToModel。 
场景三:加速Wan2.2视频生成
- 基础加速: 在处理模型的最后一个节点后、送入 - KSampler之前,接入- ApplyDeepyTorchToModel。 
常见问题
- 安装插件后,ComfyUI启动报错或找不到- ApplyDeepyTorchToModel节点怎么办?- 请按以下步骤排查 - 确认重启:确保在安装插件后已完全重启ComfyUI服务。 
- 检查路径:确认 - ComfyUI-deepgpu文件夹是否被正确解压到了- ComfyUI/custom_nodes/目录下。
- 检查依赖:重新安装 - deepgpu-torch和- deepgpu-comfyui依赖,检查是否有报错。
- 版本冲突:检查PyTorch版本是否与安装的 - deepgpu-torch版本后缀(如- +torch2.8.0cu128)严格对应。
 
- 使用DeepGPU加速后,生成的图像或视频质量会下降吗?- 在默认的 - auto配置下,DeepGPU旨在实现无损或体感无损的加速。它会自动选择最优的精度策略,在绝大多数情况下,不会观察到肉眼可见的质量差异。
- 我的GPU型号不在推荐列表里,还能使用吗?- 可以。推荐列表是经过深度优化和测试、性能提升最显著的型号。其他 NVIDIA GPU同样可以运行并获得加速效果,只是提升幅度可能会有所不同。 
- 如何更新DeepGPU插件?- 访问官方发布渠道获取最新的 - .tar.gz压缩包和- pip install命令,然后重新安装插件(建议先删除旧的- ComfyUI-deepgpu文件夹),即可覆盖并更新到最新版本。