使用DeepytorchLite节点加速图像生成
使用DeepytorchLite节点加速ComfyUI工作流的图像生成
DeepytorchLite加速节点介绍
Deepytorch概述
DeepytorchLite节点基于阿里云自研的Deepytorch加速库,可在大多数场景下实现20%以上的推理速度提升,实际加速效果取决于底层计算资源、模型类型、工作流具体配置等因素。加速节点具有以下特性:
主流模型结构支持:DeepytorchLite节点对业界主流模型结构提供了广泛支持,包括SD1.5、SD1.5-inpainting、SD2、SDXL、SDXL-turbo、SDXL-inpainting、SDXL-refiner、SVD、SDXL-lighting-nstep等;
动态尺寸支持:针对文生图业务中动态输入尺寸的场景,Deepytorch进行了针对性优化;
Controlnet模型加速支持;
高度兼容性:DeepytorchLite加速能力与主流插件功能相兼容
业界对比
加速框架 | kernel优化能力 | 动态尺寸支持 | 免编译能力 | Engine文件 | 插件兼容性 |
Deepytorch | 速度较Xformers可进一步提升10%~20+% | 支持 | 支持 | 极小 | 高度兼容性 |
TensorRT | 业界极高的优化水准 | 支持 | 不支持(无法及时优化,需要漫长的编译时间) | Engine文件很大,且每个模型都生成一个Engine | 插件限制较多 |
Xformers | 优秀水准(性能与兼容性的权衡) | 支持 | 支持 | 无 | 高度兼容性 |
加速节点介绍
节点类型:
(1)Unet加速优化:optimize the Model by DeepytorchLite
节点类型:DeepytorchLiteOptimize
输入/输出:model
(2)VAE加速优化:optimize the VAE by DeepytorchLite
节点类型:DeepytorchLiteOptimizeVAE
输入/输出:vae
(3)ControlNet加速优化:optimize the ControlNet by DeepytorchLite
节点类型:DeepytorchLiteOptimizeControlNet
输入/输出:controlnet
使用方法
环境准备好后,获得一个可以运行的工作流如下:
双击界面空白处搜索 Deepy ,可以搜索到三个加速优化节点,根据需求将加速节点插入到workflow中
DeepytorchLite加速节点添加后的效果如下所示
加速效果
示例workflow:
deepytorch-demo-sdxl-controlnet.json
(1)SD1.5
生图配置:SD1.5-512*512 + euler + step20
加速前采样时间为2.17s
经过加速节点之后,采样时间缩短至1s
(2)SDXL
生图配置:SDXL-1024*1024 + euler + step20
加速前采样时间为6.7s
加速后采样时间降至5.98s
(3)复杂工作流
生图配置:SDXL-512*768 + lora + controlnet + step30
加速前采样时间为20.59s
加速后采样时间降至18.53s