VisionPlaid 发布说明

更新时间:
复制为 MD 格式

VisionPlaid 是阿里云基础软件团队推出的、面向视觉扩散模型(Diffusion Model)的高性能推理加速框架。本文介绍其首版发布内容、核心特性与性能表现,便于在 ComfyUI 与 FunArt 等场景中选型与使用。

版本动态

  • 2026-03-12:首个正式版本发布。深度整合量化、并行与通信优化及多种注意力后端,提供对 ComfyUI 的原生支持,深度兼容 ComfyUI 节点式工作流;为 Qwen-ImageQwen-Image-Edit 及 Wan2.1/2.2 系列提供推理加速,支持硬件包括 L20、RTX 4090、RTX 5090。

为什么选择 VisionPlaid?

在现有推理方案中,VisionPlaid 主要提供以下四方面能力,便于在显存与速度之间取得更好平衡。

1. ComfyUI 序列并行加速(SP)

  • 不止于显存节省:相较仅通过分布式 Offload 节省显存的方案(如 comfyui-multigpu),VisionPlaid 实现序列并行(Sequence Parallelism, SP),在多卡协同下既能跑起大模型,也能明显缩短单图/单视频的生成时间。

  • 端到端速度:在并行模式下可同时开启 Async Offload,并与 4-bit 量化结合,单张大图或长视频的端到端(E2E)生成速度可接近硬件上限。

2. 原生 ComfyUI 兼容

  • 直接使用社区权重:无需通过独立后端服务接管,即可复用现有 ComfyUI 生态与权重。

  • 组件兼容:作为 ComfyUI 内嵌方案,可继续使用各类自定义节点与插件,与 xDiT 等独立框架的迁移成本不同。

3. 智能内存与异步 Offload

  • 在 ComfyUI 既有内存管理之上,提供**异步加载/卸载(Async Load/Unload)**能力。推理进行的同时在后台准备下一阶段权重,从而支持在显存容量有限的情况下运行更大规模模型。

4. 架构易用性

  • 节点级接入:在工作流中启用并行时,仅需替换 KSampler 节点即可接入加速。

  • Worker 管理:切换 GPU 数量时,由系统自动销毁并重建 Worker,无需重启 ComfyUI 即可生效。

核心特性

VisionPlaid 通过软硬件协同优化,在尽量保持精度的前提下提升推理性能。

并行与通信

  • SP 计算与通信重叠:通过序列并行隐藏通信延迟,实现计算与通信的并发。

  • 量化通信:采用低位宽通信,减轻多卡/多节点带宽压力。

精度与量化

  • Int4 / NVFP4:原生支持低精度量化,在压缩显存占用的同时兼顾生成质量。

  • 4-Step 蒸馏:适配少步数蒸馏模型,支持秒级图像/视频生成。

架构与算子

  • ComfyUI 原生集成:在工作流中支持节点级并行推理。

  • 多 Attention 后端:支持 SageAttention、FlashAttention 与 SDPA,可在不重启的情况下切换。

  • 异步 Offload:按需加载/卸载权重,用计算流水掩盖 IO,支持超出单机显存的大模型推理。

  • 算子与编译优化:结合 torch.compile 与自定义融合算子,提升硬件利用率。

横向评测(Benchmarks)

在相同测试设定下,VisionPlaid 在 Transformer 单步时间与端到端延迟上相对当前主流方案具备优势,以下数据供选型参考。

视频生成

框架名称

GPUs

Step Time

End-To-End Time

Speedup

Diffusers

1

24.03 s/it

499.47 s

1x

LightX2V

1

20.41 s/it

465.00 s

1.07x

xDiT

1

32.80 s/it

670.23 s

-

FastVideo

1

22.75 s/it

466.43 s

1.07x

SGL Diffusion

1

15.41 s/it

324.10 s

1.5x

VisionPlaid

1

14.98 s/it

308.11 s

1.6x

LightX2V

2

13.01 s/it

268.81 s

1.8x

xDiT

2

OOM

-

-

FastVideo

2

14.73 s/it

306.28 s

1.6x

SGL Diffusion

2

12.57 s/it

285.21 s

1.8x

VisionPlaid

2

8.74 s/it

200.60 s

2.5x

测试环境:Wan 2.1 T2V 14B,4090,20 steps,81 frames,480P(480×848),SageAttention,BF16。
说明:xDiT 未接入 SageAttention,故未列出 Speedup;2 卡时 xDiT 因 CPU offload 与 parallel 冲突出现 OOM。

图片生成(BF16/FP8)

框架名称

权重

GPUs

Step Time

End-To-End Time

Speedup

Diffusers

bf16

1

-

OOM

-

LightX2V

bf16

1

3.23 s/it

65.63 s

1x

LightX2V

fp8

1

1.62 s/it

33.83 s

1x

LightX2V

4steps+fp8

1

0.81 s/it

4.10 s

1x

xDiT

bf16

1

-

OOM

-

SGL Diffusion

bf16

1

-

OOM

-

VisionPlaid

bf16

1

2.97 s/it

60.95 s

1.08x vs LightX2V

VisionPlaid

fp8

1

1.51 s/it

30.73 s

1.10x vs LightX2V

VisionPlaid

4steps+fp8

1

0.71 s/it

3.51 s

1.17x vs LightX2V

测试环境:Qwen-Image-2512,4090,20 steps 或 4 steps,1024×1024,SageAttention。
说明:4-step 使用 CFG=1.0;xDiT、SGL Diffusion 未支持 FP8。

图片生成(Int4 / 4steps+Int4)

框架名称

权重

GPUs

Step Time

End-To-End Time

Speedup*

ComfyUI

bf16

1

9.04 s/it

188.39 s

0.69x

ComfyUI

4steps+bf16

1

4.38 s/it

24.40 s

0.56x

Nunchaku

int4

1

6.42 s/it

129.46 s

1x

Nunchaku

4steps+int4

1

3.19 s/it

13.73 s

1x

VisionPlaid + default attention

int4

1

5.96 s/it

121.65 s

1.06x

VisionPlaid + default attention

4steps+int4

1

2.84 s/it

12.97 s

1.06x

VisionPlaid + sage attention

int4

1

3.16 s/it

64.92 s

2.0x

VisionPlaid + sage attention

4steps+int4

1

1.49 s/it

7.24 s

1.9x

VisionPlaid + default attention

int4

2

3.77 s/it

77.07 s

1.7x

VisionPlaid + default attention

4steps+int4

2

1.97 s/it

9.23 s

1.5x

VisionPlaid + sage attention

int4

2

2.29 s/it

47.17 s

2.7x

VisionPlaid + sage attention

4steps+int4

2

1.24 s/it

6.04 s

2.3x

测试环境:Qwen-Image-Edit-2509,4090,20 steps 或 4 steps,1440×1920,ComfyUI 默认启动参数。
说明:4-step 使用 CFG=1.0;Speedup 以 Nunchaku 的 int4 与 4steps+int4 分别为基准;VisionPlaid 支持无重启切换 SageAttention,适合 GPU 数量或 workload 不固定的长时间运行场景(如阿里云 FC)。

操作入门