使用DeepGPU加速Wan2.1视频生成

在使用容器计算服务 ACS(Container Compute Service)算力时,您无需深入了解底层硬件,也无需涉及GPU节点管理和配置即可开箱即用。ACS部署简单、支持按量付费,非常适合用于LLM推理任务,可以有效降低推理成本。本文介绍如何使用ACS GPU算力通过deepgpu-comfyui插件加速Wan2.1视频生成。

背景信息

ComfyUI

ComfyUI是一个基于 节点(Node-based) 的图形用户界面(GUI),专为运行和定制 Stable Diffusion(一种主流的文本生成图像模型)而设计。它通过可视化的流程图(Workflow)方式,让用户以拖拽节点的方式构建复杂的图像生成流程,而无需直接编写代码。

Wanx模型

通义万相(Tongyi Wanxiang)是由阿里巴巴通义实验室研发的AI绘画与文生图(AIGC)大模型,属于“通义千问”大模型系列中的视觉生成分支。它是全球首个支持中文提示词的AI绘画模型,并具备多模态能力,能够根据文字描述、手绘草图、图像风格迁移等生成高质量的艺术作品。

前提条件

  • 首次使用阿里云容器计算服务 ACS(Container Compute Service)时,需要为服务账号授予系统默认角色。当且仅当该角色被正确授予后,ACS才能正常地调用相关服务(ECS、OSS、NAS、CPFS、SLB等),创建集群以及保存日志等。具体操作,请参见首次使用容器计算服务

  • 支持的GPU卡型:L20(GN8IS)、G49E。

操作步骤

步骤一:准备模型数据

建议您创建NASOSS存储卷来持久化存储模型文件。本文以NAS存储卷为例,请在NAS挂载的目录中执行以下操作。

创建持久化存储卷的具体操作,请参见新建NAS文件系统作为存储卷使用OSS静态存储卷
  1. 执行以下命令下载ComfyUI。

    请确认操作环境已安装git
    git clone https://github.com/comfyanonymous/ComfyUI.git
  2. 执行以下命令,分别下载以下三个模型文件到ComfyUI对应的目录下。关于模型的详细信息,请参见Wan_2.1_ComfyUI_repackaged项目

    建议提升公网带宽峰值,预计下载总用时约30分钟。
    1. wan2.1_t2v_14B_fp16.safetensors文件

      cd ComfyUI/models/diffusion_models
      wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/diffusion_models/wan2.1_t2v_14B_fp16.safetensors 
    2. wan_2.1_vae.safetensors文件

      cd ComfyUI/models/vae
      wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/vae/wan_2.1_vae.safetensors
    3. umt5_xxl_fp8_e4m3fn_scaled.safetensors文件

      cd ComfyUI/models/text_encoders
      wget https://modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/master/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors
  3. 下载并解压ComfyUI-deepgpu。

    cd ComfyUI/custom_nodes
    wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/nodes/20250513/ComfyUI-deepgpu.tar.gz
    tar zxf ComfyUI-deepgpu.tar.gz

步骤二:部署ComfyUI服务

  1. 登录容器计算服务控制台,在左侧导航栏选择集群列表。然后单击目标集群名称,在左侧导航栏选择工作负载 > 无状态,然后单击右上角的使用YAML创建资源

  2. 以挂载NAS存储卷为例,使用以下YAML作为模版,然后点击创建

    请按实际创建的PVC修改persistentVolumeClaim.claimName配置。
    本示例使用的是cn-beijing地域的inference-nv-pytorch 25.07,以减少镜像拉取的时间。若您希望使用其他地域的内网镜像,可以根据使用方式手动调整YAML中的镜像地址。
    本示例使用的测试容器镜像已内置deepgpu-torch、deepgpu-comfyui插件,如果您需要在其他容器环境内使用,请咨询PDSA获取插件安装包。
    apiVersion: apps/v1
    kind: Deployment
    metadata:
      labels:
        app: wanx-deployment
      name: wanx-deployment-test
      namespace: default
    spec:
      replicas: 1
      selector:
        matchLabels:
          app: wanx-deployment
      template:
        metadata:
          labels:
            alibabacloud.com/compute-class: gpu
            alibabacloud.com/compute-qos: default
            alibabacloud.com/gpu-model-series: L20 #支持的GPU卡型:L20(GN8IS)、G49E
            app: wanx-deployment
        spec:
          containers:
          - command:
            - sh
            - -c
            - DEEPGPU_PUB_LS=true python3 /mnt/ComfyUI/main.py --listen 0.0.0.0 --port 7860
            image: acs-registry-vpc.cn-beijing.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless
            imagePullPolicy: Always
            name: main
            resources:
              limits:
                nvidia.com/gpu: "1"
                cpu: "16"
                memory: 64Gi
              requests:
                nvidia.com/gpu: "1"
                cpu: "16"
                memory: 64Gi
            terminationMessagePath: /dev/termination-log
            terminationMessagePolicy: File
            volumeMounts:
            - mountPath: /dev/shm
              name: cache-volume
            - mountPath: /mnt #/mntNAS存储声明影射到pod内的路径
              name: data
          dnsPolicy: ClusterFirst
          restartPolicy: Always
          schedulerName: default-scheduler
          securityContext: {}
          terminationGracePeriodSeconds: 30
          volumes:
          - emptyDir:
              medium: Memory
              sizeLimit: 500G
            name: cache-volume
          - name: data
            persistentVolumeClaim:
              claimName: wanx-nas #wanx-nas为通过NAS创建的存储声明
    
    ---
    apiVersion: v1
    kind: Service
    metadata:
      name: wanx-test
    spec:
      type: LoadBalancer
      ports:
        - port: 7860
          protocol: TCP
          targetPort: 7860
      selector:
        app: wanx-deployment
  3. 在弹窗中点击查看,进入工作负载基本信息页面。点击下方日志页签,有如下输出,说明服务启动成功。

    image

步骤三:插件用法介绍

  1. 点击访问方式页签,获取服务的外部端点(如8.xxx.xxx.114:7860)。

    image

  2. 通过浏览器访问ComfyUI地址http://8.xxx.xxx.114:7860/。在ComfyUI界面点击右键,然后点击添加节点可以查看插件中包含DeepGPU类型的节点。

    首次访问加载用时约5分钟。

    image

    ApplyDeepyTorch节点介绍

    ApplyDeepyTorch节点用于优化模型推理性能,一般是插入到整个workflow中最后一个处理模型节点之后,例如插入到Load Diffusion Model、Load Checkpoint、LoraLoaderModelOnly等节点之后。ApplyDeepyTorch节点类型如下图所示。

    image.png

步骤四:测试示例工作流

  1. 通过浏览器下载wan2.1 DeepyTorch加速工作流到本地。

    1. 使用图片生成视频工作流。

      https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_image_to_video_wan_1.3b_deepytorch.json
    2. 使用文本生成视频工作流。

      https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_text_to_video_wan_deepytorch.json
  2. 以下步骤以加速使用文本生成视频为例。在ComfyUI点击工作流 > 打开,然后选择已下载的workflow_text_to_video_wan_deepytorch.json文件。

  3. 打开工作流文件之后,需要将Apply DeepyTorch to diffusion model节点的enable设置为true来开启加速,然后点击运行,等待视频生成。

    DeepyTorch加速工作流在Load Diffusion Model节点后插入ApplyDeepyTorch节点。

    image.png

  4. 点击左侧队列按钮,可以查看视频生成时间并预览视频。

    第一次测试生成时间会稍长,可以重复运行2~3次获取最佳性能。

    image

  5. (可选)如果要测试未加速场景,需要重启ComfyUI服务,并选择如下工作流生成视频。

    https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/deepgpu/comfyui/wan/workflows/workflow_text_to_video_wan.json