LVM-图像文本描述生成(DLC)

图像文本描述生成算法是一种结合计算机视觉和自然语言处理的模型,旨在为输入图像生成自然语言描述。它在辅助视障人士、社交媒体内容创作、图像搜索、电商展示和新闻发布等领域有着广泛应用,显著提升了信息的可访问性和用户体验。

支持的计算资源

DLC

算法说明

BLIP模型生成图像文本。

输入/输出

输入桩

  • 通过OSS数据组件,读取训练数据所在的OSS路径。

  • 配置此算法参数图像数据OSS路径,选择图像数据所在的OSS目录,或图像元数据文件。详情请参见下文中的参数说明。

  • 使用任意图像预处理组件作为输入。

输出桩

输出结果。详情请参见下文中的参数说明。

配置组件

Designer工作流页面添加LVM-图像文本描述生成(DLC)组件,并在界面右侧配置相关参数:

参数类型

参数

是否必选

描述

默认值

字段设置

图像数据OSS路径

首次运行时,若无上游组件,需手动选择图像数据所在的OSS目录。运行时会在该目录的上一级目录下生成图像元数据文件meta.jsonl。后续处理此图像数据时,也可以直接选择之前生成的meta.jsonl文件。

输出文件的OSS路径

生成结果的存储目录。包含以下文件:

  • {name}.jsonl:结果文件,即下面参数输出的文件名

  • dj_run_yaml.yaml:算法运行时的参数配置文件。

输出的文件名

生成结果的文件名。

result.jsonl

参数设置

生成候选文本数目

生成的候选文本数。

1

执行调优

选择资源组

公共资源组

选择节点规格(CPUGPU实例规格)、专有网络。该算法需使用GPU规格实例。

专有资源组

选择CPU核数、内存、共享内存、GPU卡数。

最大运行时长

组件最大运行时长,超过这个时间,作业会被终止。