使用DeepytorchLite节点加速图像生成

更新时间:

使用DeepytorchLite节点加速ComfyUI工作流的图像生成

DeepytorchLite加速节点介绍

Deepytorch概述

DeepytorchLite节点基于阿里云自研的Deepytorch加速库,可在大多数场景下实现20%以上的推理速度提升,实际加速效果取决于底层计算资源、模型类型、工作流具体配置等因素。加速节点具有以下特性:

  • 主流模型结构支持:DeepytorchLite节点对业界主流模型结构提供了广泛支持,包括SD1.5、SD1.5-inpainting、SD2、SDXL、SDXL-turbo、SDXL-inpainting、SDXL-refiner、SVD、SDXL-lighting-nstep等;

  • 动态尺寸支持:针对文生图业务中动态输入尺寸的场景,Deepytorch进行了针对性优化;

  • Controlnet模型加速支持;

  • 高度兼容性:DeepytorchLite加速能力与主流插件功能相兼容

业界对比

加速框架

kernel优化能力

动态尺寸支持

免编译能力

Engine文件

插件兼容性

Deepytorch

速度较Xformers可进一步提升10%~20+%

支持

支持

极小

高度兼容性

TensorRT

业界极高的优化水准

支持

不支持(无法及时优化,需要漫长的编译时间)

Engine文件很大,且每个模型都生成一个Engine

插件限制较多

Xformers

优秀水准(性能与兼容性的权衡)

支持

支持

高度兼容性

加速节点介绍

节点类型:

(1)Unet加速优化:optimize the Model by DeepytorchLite

节点类型:DeepytorchLiteOptimize

输入/输出:model

(2)VAE加速优化:optimize the VAE by DeepytorchLite

节点类型:DeepytorchLiteOptimizeVAE

输入/输出:vae

(3)ControlNet加速优化:optimize the ControlNet by DeepytorchLite

节点类型:DeepytorchLiteOptimizeControlNet

输入/输出:controlnet

使用方法

  1. 环境准备好后,获得一个可以运行的工作流如下:

image

  1. 双击界面空白处搜索 Deepy ,可以搜索到三个加速优化节点,根据需求将加速节点插入到workflow中

image

DeepytorchLite加速节点添加后的效果如下所示

image

加速效果

示例workflow:

deepytorch-demo.json

deepytorch-demo-sdxl-controlnet.json

(1)SD1.5

生图配置:SD1.5-512*512 + euler + step20

加速前采样时间为2.17s

image

经过加速节点之后,采样时间缩短至1s

image

(2)SDXL

生图配置:SDXL-1024*1024 + euler + step20

加速前采样时间为6.7s

image

加速后采样时间降至5.98s

image

(3)复杂工作流

生图配置:SDXL-512*768 + lora + controlnet + step30

加速前采样时间为20.59s

image

加速后采样时间降至18.53s

image