影视传媒视频理解_大模型服务平台百炼(Model Studio)-阿里云帮助中心

影视传媒视频理解轻应用支持借助视频处理、视频理解、大语言模型的串联能力，实现对视频里指定要点的理解和提取，并按要求生成指定类型的文案、提取标签、洞察分析等。

重要

影视传媒视频理解应用按实际调用模型对应的输入、输出Token以后付费方式来计费。具体请参见全妙AI Agent-视频理解计费文档。
关于Token的计算方法和模型的计费详情，请参见计费项说明。
您可点击链接开通影视传媒视频理解。

功能概述

影视传媒视频理解轻应用通过整合视频处理、自动语音识别（ASR）、视觉语言模型（VLM）和大语言模型（LLM）等算法能力，构建了一套通用视频理解方案，支持视频描述、结构解析、标签分类、视频问答、内容挖掘、视频检索、分析场景和营销场景等8大常见应用，并内置了24个对应子任务模板。用户可以参照模板修改调试来适配或自定义自己的业务场景。整体来说，在基础模型基础上，支持更细粒度理解和更复杂任务；在功能上，支持1次VL视觉理解便可复用并完成多个下游子任务。

操作指引视频示例

功能入口

功能介绍

应用详情

在影视传媒视频理解应用的应用详情页签，您可以查看功能描述、目标客群、最佳实践、使用步骤、计费规则、全妙相关应用推荐、视频理解相关解决方案七部分内容。

效果调试

单击效果调试页签，您可以参考以下步骤设置配置项。

设置视频处理配置项。
1. 上传视频文件：单击或拖拽本地视频文件至虚线框内。
  支持中英文视频、MP4格式，视频大小需小于100 MB，分辨率小于1080P，时长不超过10分钟。
  如果视频超过10分钟，您可以调用异步API实现。功能相同，但目前不支持页面上预览结果。
  请在API页面查看调用方式详情：
2. 可选：输入视频相关的补充文字资料，辅助大模型理解。
设置视觉语言分析（VL分析）配置项。通过多模态大模型分析视频各个片段里的详细信息，例如角色、动作、画面内容等。生成的内容是一个中间结果，主要服务于第3步的进一步加工处理，输出结果较长，可不做重点关注。
1. 选择VL大模型：目前支持通义千问VL-Max-Latest、通义千问VL-Max、通义千问VL-Plus-Latest、通义千问VL-Plus。
2. 输入VL大模型的指令（Prompt）：按照模板填写输入给到VL大模型的指令。
设置文本加工配置项。结合您的具体目标，在下方输入相应prompt，包括但不限于视频内容摘要、标签抽取、视频分类。
1. 选择大语言模型，目前支持通义千问-Max-Latest、通义千问-Max、通义千问-Plus-Latest、通义千问-Plus。
2. 输入大语言模型的指令（prompt）：可选用参考示例中的场景应用，支持视频描述、结构解析、标签分类、视频问答、内容挖掘、视频检索、分析场景和营销场景等8大常见应用，并内置了24个对应子任务模板。视频理解支持的功能如下：
设置其他可选输出项配置项（内置能力），包含视频时间戳+字幕、视频内容总结成思维导图、总结生成视频标题。
设置高级功能配置项，包含抽帧策略配置、多语言识别、人物身份识别。
- 抽帧策略配置：支持快速、标准和自定义抽帧方式，抽帧时间间隔越长，对视频里的信息抓取和理解的细致度就越差，但处理一个视频耗费的Token会变少。
- 多语言识别：支持五种语言形式的视频分析，包含中文、英语、法语、日语、中英文融合。
- 人物身份识别：支持对视频中的人物进行识别，最多支持识别3个人物，每个人物可上传1张图片。
点击开始分析。按照输入的内容，大模型可以进行理解、学习生成，您可以在右侧查看第4步结果（视频时间戳+字幕、视频内容总结成思维导图、总结生成视频标题）、视觉语言分析结果和文本加工结果。
下图为视频理解示例：

查看API示例

效果调试完成后，单击API页签，您可以查看对应生成的API示例。

说明

支持实时和异步两种模式：

实时模式：在线调用：
- 共享资源池，共享并发。
- 最多支持1并发。
- 支持处理的视频时长最多不超过10分钟，且接口会在10分钟内返回处理结果。
异步模式：离线调用：
- 共享资源池，共享并发。
- 每个阿里云主账号提供2个免费并发，且支持扩并发，最多支持扩展到10并发。
- 任务可在24小时内处理完毕。一次任务不超过1万个视频文件，每个视频时长不超过1小时。

常见问题

1、支持处理哪些视频？

目前支持中英文视频、MP4格式，视频大小小于100 MB，分辨率小于1080P，时长不超过8分钟。

2、如果有大量视频需要处理，怎样提高视频处理效率？

目前视频处理API采取SSE协议，实时的流式处理方式，如果有大量视频需要处理，可以通过并行调用API的方式提高视频的处理效率，建议并发度控制在20 QPM以内，如果您需要更高并发可以联系我们处理。

3、视频处理中哪些步骤会消耗Token？怎样操作可以减少Token的消耗？

目前视频处理大致流程分为：视频ASR提取、切片、抽帧、视觉语言分析（消耗VL大模型Token），文本加工（消耗文本大模型Token）。
其中视频时长增长对文本加工Token消耗影响不大，视频越长、抽帧间隔越短，视觉语言分析Token消耗基本呈线性增长。
如果您对Token消耗有要求，可以考虑通过增加抽帧间隔（snapshotInterval[1~10]）来降低Token消耗。但是抽帧间隔越长，视频理解的细腻程度会有所损耗。

4、离线调用怎么扩并发？

您可以通过GetVideoAnalysisConfig - 视频理解-获取配置、UpdateVideoAnalysisConfig - 视频理解-更新配置接口查看和扩缩并发。