影视传媒视频理解

影视传媒视频理解轻应用支持借助视频处理、视频理解、大语言模型的串联能力,实现对视频里指定要点的理解和提取,并按要求生成指定类型的文案、提取标签、洞察分析等。

重要

影视传媒视频理解应用限时免费,额度用完后再按实际调用模型对应的输入、输出Token以后付费方式来计费。

功能概述

影视传媒视频理解轻应用通过整合视频处理、自动语音识别(ASR)、视觉语言模型(VLM)和大语言模型(LLM)等算法能力,构建了一套通用视频理解方案,支持视频描述、结构解析、标签分类、视频问答、内容挖掘、视频检索、分析场景和营销场景等8大常见应用,并内置了24个对应子任务模板。用户可以参照模板修改调试来适配或自定义自己的业务场景。整体来说,在基础模型基础上,支持更细粒度理解和更复杂任务;在功能上,支持1VL视觉理解便可复用并完成多个下游子任务。

功能入口

  1. 登录阿里云百炼大模型服务平台

  2. 在左侧导航栏中,选择应用广场

  3. 应用广场页面,单击影视传媒视频理解卡片区域的查看详情

功能介绍

应用详情

影视传媒视频理解应用的应用详情页签,您可以查看功能描述、目标客群、最佳实践、使用步骤、计费规则。

image

效果调试

单击效果调试页签,您可以参考以下步骤设置配置项,完成后单击创作

image

  1. 上传视频文件:单击或拖拽上传本地视频文件至虚线框内。

    支持中英文视频、MP4格式,视频大小需小于100 MB,分辨率小于1080P,时长不超过8分钟。
  2. 选择VL大模型并给VL大模型指令,对视频进行视觉语言分析:在选择VL大模型下拉列表中选择目标模型(支持通义千问VL-Max通义千问VL-Plus)。在VL大模型的指令(Prompt)文本输入框中按需修改指令,或是单击恢复默认prompt

  3. 选择大语言模型并给大语言模型指令,对最终输出的结果进行文本加工。

    选择大语言模型下拉列表中选择目标模型(支持通义千问-Max-Latest通义千问-Plus-Latest通义千问-Plus通义千问-Max-Longcontext通义千问-Max)。在给大语言模型的指令(Prompt)文本输入框中输入指令,例如角色、任务目标、限制条件等。您也可以使用系统预置的参考示例。image

    视频理解支持的功能如下:

    image

  4. 设置其他可选输出项,您可以按需选择(支持多选)。

下图为完成效果调试后的视频理解效果。

image

查看API示例

效果调试完成后,单击API页签,您可以查看对应生成的API示例。

image

常见问题

支持处理哪些视频

目前支持中英文视频、MP4格式,视频大小小于100 MB,分辨率小于1080P,时长不超过8分钟。

如果有大量视频需要处理,怎样提高视频处理效率?

目前视频处理API采取SSE协议,实时的流式处理方式,如果有大量视频需要处理,可以通过并行调用API的方式提高视频的处理效率,建议并发度控制在20 QPM以内,如果您需要更高并发可以联系我们处理。

视频处理中哪些步骤会消耗Token?怎样操作可以减少Token的消耗?

  • 目前视频处理大致流程分为:视频ASR提取、切片、抽帧、视觉语言分析(消耗VL大模型Token),文本加工(消耗文本大模型Token)。

  • 其中视频时长增长对文本加工Token消耗影响不大,视频越长、抽帧间隔越短,视觉语言分析Token消耗基本呈线性增长。

  • 如果您对Token消耗有要求,可以考虑通过增加抽帧间隔(snapshotInterval[1~10])来降低Token消耗。但是抽帧间隔越长,视频理解的细腻程度会有所损耗。