文档

LVM-文本区域过滤(DLC)

更新时间:

LVM-文本区域过滤(DLC)组件主要用于过滤文本过多的视频(仅支持处理MP4格式的视频)数据。

支持的计算资源

DLC

算法说明

通过采样若干视频帧,计算视频帧的文本区域所占的比例来衡量整个视频的文本占比,从而过滤文本占比过大的视频数据来保证视频的质量,常用于后续视频生成模型的训练。

输入/输出

输入桩

  • 通过读OSS数据组件,读取训练数据所在的OSS路径。

  • 配置此算法参数视频数据OSS路径,选择视频数据所在的OSS目录,或视频元数据文件。详情请参见下文中的参数说明。

  • 使用任意LVM数据处理(DLC)组件作为输入。

输出桩

过滤结果。详情请参见下文中的参数说明。

配置组件

在Designer工作流页面添加LVM-文本区域过滤(DLC)组件,并在界面右侧配置相关参数:

参数类型

参数

是否必选

描述

默认值

字段设置

视频数据OSS路径

首次运行时,若无上游组件,需手动选择视频数据所在的OSS目录。运行时会在OSS Bucket根目录下生成视频元数据文件video_meta.jsonl。后续处理此视频数据时,也可以直接选择之前生成的video_meta.jsonl文件。

输出文件的OSS路径

过滤结果的存储目录。过滤结果包含以下文件:

  • {name}.jsonl:过滤结果文件,即下面参数输出的文件名

  • {name}_stats.jsonl:过滤状态文件。

  • dj_run_yaml.yaml:算法运行时的参数配置文件。

输出的文件名

过滤结果的文件名。

result.jsonl

参数设置

最小文本区域比例

最小文本区域比例。

0

最大文本区域比例

最大文本区域比例。

1

均匀采样帧数目

采样的视频帧数。系统会在视频中根据视频时长均匀地采集帧画面进行分析。

1

执行调优

多进程个数

设置进程数。

4

选择资源组

公共资源组

选择节点规格(CPU或GPU实例规格)、节点数量、专有网络。

专有资源组

选择CPU核数、内存、共享内存、GPU卡数、节点数量。

最大运行时长

组件最大运行时长,超过这个时间,作业会被终止。

  • 本页导读