LVM-图像文本匹配度过滤(DLC)

LVM-图像文本匹配度过滤(DLC)组件主要用于过滤文本-图像匹配度过低的图像数据。

支持的计算资源

DLC

算法说明

通过计算图像的描述和训练数据中的描述文本(训练数据示例文件中<__dj__video>字段后面的内容)的匹配度(基于blip-itm-base-coco计算),从而过滤匹配度过低的图像来保证图像的质量,常用于后续图像生成模型的训练。训练数据文件格式说明:

输入数据格式为jsonl格式文件;其中文本字段中的"<__dj__image>"和"<|__dj__eoc|>"分别对应图像描述文本的起始和终止标志。

image

  • images字段,为图像的OSS路径。

  • text字段,即上述算法说明中的描述文本。

输入/输出

输入桩

  • 通过OSS数据组件,读取训练数据文件所在的OSS路径。

  • 配置此算法参数图像数据OSS路径,选择训练数据文件。

关于训练数据文件,详情请参见算法说明

输出桩

过滤结果。详情请参见下文中的参数说明。

配置组件

Designer工作流页面添加LVM-图像文本匹配度过滤(DLC)组件,并在界面右侧配置相关参数:

参数类型

参数

是否必选

描述

默认值

字段设置

图像数据OSS路径

训练数据文件,详情请参见算法说明

输出文件的OSS路径

过滤结果的存储目录。过滤结果包含以下文件:

  • {name}.jsonl:过滤结果文件,即下面参数输出的文件名

  • {name}_stats.jsonl:过滤状态文件。

  • dj_run_yaml.yaml:算法运行时的参数配置文件。

输出的文件名

过滤结果的文件名。

result.jsonl

参数设置

最小文本-图像匹配度

需要保留的最小文本-图像匹配度。

0.1

最大文本-图像匹配度

需要保留的最大文本-图像匹配度,一般设置为1。

1

执行调优

选择资源组

公共资源组

选择节点规格(CPUGPU实例规格)、专有网络。该算法需使用GPU规格实例。

专有资源组

选择CPU核数、内存、共享内存、GPU卡数。

最大运行时长

组件最大运行时长,超过这个时间,作业会被终止。