文档

视频数据过滤打标

LVM数据处理算法提供了视频清洗、视频分类、视频内容清理、视频基本信息的提取、视频caption生成的功能。您可以根据实际需求组合不同的算法,从而过滤出合适的视频数据并生成相应的文本描述,方便为后续的视频生成模型训练提供优质的视频数据。本文为您介绍Designer中视频数据过滤打标预置模板的使用说明。

使用限制

视频数据过滤打标预置模板仅支持华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)地域使用。

准备视频数据

上传视频文件至OSS,视频文件格式要求如下:

  • 视频文件为MP4格式。

  • 视频文件名称不包含中文字符。

创建并运行工作流

  1. 进入Designer页面。

    1. 登录PAI控制台

    2. 在顶部左上角根据实际情况选择地域。

    3. 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

    4. 在左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 创建工作流。

    1. 预置模板页签下,选择业务领域 > 多模态大模型,单击视频数据过滤打标模板卡片上的创建

      image

    2. 配置工作流参数(或保持默认),单击确定

    3. 在工作流列表,选择已创建的工作流,单击进入工作流

  3. 配置工作流。

    image

    关键配置如下:

    • 读OSS数据组件:配置组件的OSS数据路径,即准备视频数据中视频文件上传的OSS目录。

    • LVM视频算法组件:分别配置LVM算法组件,详情请参见视频预处理算子

  4. 运行工作流。运行结束后,查看生成的文件:

    • video_meta.jsonl文件:运行时会在视频数据OSS路径的上一级目录下生成视频元数据文件video_meta.jsonl。

    • 结果文件:在输出文件的OSS路径中查看结果文件。

    关于结果文件详细说明,请参见视频预处理算子输出文件的OSS路径参数介绍。

相关参考

视频预处理组件介绍