部署ComfyUI并使用DeepGPU加速Wan2.1视频生成-容器计算服务-阿里云

在使用容器计算服务 ACS（Container Compute Service）算力时，您无需深入了解底层硬件，也无需涉及GPU节点管理和配置即可开箱即用。ACS部署简单、支持按量付费，非常适合用于LLM推理任务，可以有效降低推理成本。本文介绍如何使用ACS GPU算力通过deepgpu-comfyui插件加速Wan2.1视频生成。

背景信息

ComfyUI

ComfyUI是一个基于节点（Node-based）的图形用户界面（GUI），专为运行和定制 Stable Diffusion（一种主流的文本生成图像模型）而设计。它通过可视化的流程图（Workflow）方式，让用户以拖拽节点的方式构建复杂的图像生成流程，而无需直接编写代码。

Wanx模型

通义万相（Tongyi Wanxiang）是由阿里巴巴通义实验室研发的AI绘画与文生图（AIGC）大模型，属于“通义千问”大模型系列中的视觉生成分支。它是全球首个支持中文提示词的AI绘画模型，并具备多模态能力，能够根据文字描述、手绘草图、图像风格迁移等生成高质量的艺术作品。

前提条件

首次使用阿里云容器计算服务 ACS（Container Compute Service）时，需要为服务账号授予系统默认角色。当且仅当该角色被正确授予后，ACS才能正常地调用相关服务（ECS、OSS、NAS、CPFS、SLB等），创建集群以及保存日志等。具体操作，请参见首次使用容器计算服务。
支持的GPU卡型：L20（GN8IS）、G49E。

操作步骤

步骤一：准备模型数据

建议您创建NAS或OSS存储卷来持久化存储模型文件。本文以NAS存储卷为例，请在NAS挂载的目录中执行以下操作。

创建持久化存储卷的具体操作，请参见新建NAS文件系统作为存储卷或使用OSS静态存储卷。

执行以下命令下载ComfyUI。
请确认操作环境已安装git。
```
git clone https://github.com/comfyanonymous/ComfyUI.git
```

执行以下命令，分别下载以下三个模型文件到ComfyUI对应的目录下。关于模型的详细信息，请参见Wan_2.1_ComfyUI_repackaged项目。

建议提升公网带宽峰值，预计下载总用时约30分钟。

wan2.1_t2v_14B_fp16.safetensors文件

cd ComfyUI/models/diffusion_models
wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/diffusion_models/wan2.1_t2v_14B_fp16.safetensors

wan_2.1_vae.safetensors文件

cd ComfyUI/models/vae
wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/vae/wan_2.1_vae.safetensors

umt5_xxl_fp8_e4m3fn_scaled.safetensors文件

cd ComfyUI/models/text_encoders
wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors

下载并解压ComfyUI-deepgpu。

cd ComfyUI/custom_nodes
wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/nodes/20250513/ComfyUI-deepgpu.tar.gz
tar zxf ComfyUI-deepgpu.tar.gz

步骤二：部署ComfyUI服务

登录容器计算服务控制台，在左侧导航栏选择集群列表。然后单击目标集群名称，在左侧导航栏选择工作负载 > 无状态，然后单击右上角的使用YAML创建资源。

以挂载NAS存储卷为例，使用以下YAML作为模版，然后点击创建。

请按实际创建的PVC修改persistentVolumeClaim.claimName配置。

本示例使用的是cn-beijing地域的inference-nv-pytorch 25.07，以减少镜像拉取的时间。若您希望使用其他地域的内网镜像，可以根据使用方式手动调整YAML中的镜像地址。

本示例使用的测试容器镜像已内置deepgpu-torch、deepgpu-comfyui插件，如果您需要在其他容器环境内使用，请咨询PDSA获取插件安装包。

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: wanx-deployment
  name: wanx-deployment-test
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: wanx-deployment
  template:
    metadata:
      labels:
        alibabacloud.com/compute-class: gpu
        alibabacloud.com/compute-qos: default
        alibabacloud.com/gpu-model-series: L20 #支持的GPU卡型：L20(GN8IS)、G49E
        app: wanx-deployment
    spec:
      containers:
      - command:
        - sh
        - -c
        - DEEPGPU_PUB_LS=true python3 /mnt/ComfyUI/main.py --listen 0.0.0.0 --port 7860
        image: acs-registry-vpc.cn-beijing.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless
        imagePullPolicy: Always
        name: main
        resources:
          limits:
            nvidia.com/gpu: "1"
            cpu: "16"
            memory: 64Gi
          requests:
            nvidia.com/gpu: "1"
            cpu: "16"
            memory: 64Gi
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
        volumeMounts:
        - mountPath: /dev/shm
          name: cache-volume
        - mountPath: /mnt #/mnt为NAS存储声明影射到pod内的路径
          name: data
      dnsPolicy: ClusterFirst
      restartPolicy: Always
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30
      volumes:
      - emptyDir:
          medium: Memory
          sizeLimit: 500G
        name: cache-volume
      - name: data
        persistentVolumeClaim:
          claimName: wanx-nas #wanx-nas为通过NAS创建的存储声明

---
apiVersion: v1
kind: Service
metadata:
  name: wanx-test
spec:
  type: LoadBalancer
  ports:
    - port: 7860
      protocol: TCP
      targetPort: 7860
  selector:
    app: wanx-deployment

在弹窗中点击查看，进入工作负载基本信息页面。点击下方日志页签，有如下输出，说明服务启动成功。

步骤三：插件用法介绍

点击访问方式页签，获取服务的外部端点（如8.xxx.xxx.114:7860）。
通过浏览器访问ComfyUI地址http://8.xxx.xxx.114:7860/。在ComfyUI界面点击右键，然后点击添加节点，可以查看插件中包含DeepGPU类型的节点。
首次访问加载用时约5分钟。
ApplyDeepyTorch节点介绍
ApplyDeepyTorch节点用于优化模型推理性能，一般是插入到整个workflow中最后一个处理模型节点之后，例如插入到Load Diffusion Model、Load Checkpoint、LoraLoaderModelOnly等节点之后。ApplyDeepyTorch节点类型如下图所示。

步骤四：测试示例工作流

通过浏览器下载wan2.1 DeepyTorch加速工作流到本地。

使用图片生成视频工作流。

https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_image_to_video_wan_1.3b_deepytorch.json

使用文本生成视频工作流。

https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_text_to_video_wan_deepytorch.json

以下步骤以加速使用文本生成视频为例。在ComfyUI点击工作流 > 打开，然后选择已下载的workflow_text_to_video_wan_deepytorch.json文件。
打开工作流文件之后，需要将Apply DeepyTorch to diffusion model节点的enable设置为true来开启加速，然后点击运行，等待视频生成。
DeepyTorch加速工作流在Load Diffusion Model节点后插入ApplyDeepyTorch节点。
点击左侧队列按钮，可以查看视频生成时间并预览视频。
第一次测试生成时间会稍长，可以重复运行2～3次获取最佳性能。

（可选）如果要测试未加速场景，需要重启ComfyUI服务，并选择如下工作流生成视频。

https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_text_to_video_wan.json