影视传媒视频理解轻应用支持借助视频处理、视频理解、大语言模型的串联能力,实现对视频里指定要点的理解和提取,并按要求生成指定类型的文案、提取标签、洞察分析等。
功能概述
影视传媒视频理解轻应用通过整合视频处理、自动语音识别(ASR)、视觉语言模型(VLM)和大语言模型(LLM)等算法能力,构建了一套通用视频理解方案,支持视频描述、结构解析、标签分类、视频问答、内容挖掘、视频检索、分析场景和营销场景等8大常见应用,并内置了24个对应子任务模板。用户可以参照模板修改调试来适配或自定义自己的业务场景。整体来说,在基础模型基础上,支持更细粒度理解和更复杂任务;在功能上,支持1次VL视觉理解便可复用并完成多个下游子任务。
功能入口
登录阿里云百炼大模型服务平台。
在左侧导航栏中,选择 。
在应用广场页面,单击影视传媒视频理解卡片区域的查看详情。
功能介绍
应用详情
在影视传媒视频理解应用的应用详情页签,您可以查看功能描述、目标客群、最佳实践、使用步骤、计费规则。
效果调试
单击效果调试页签,您可以参考以下步骤设置配置项,完成后单击创作。
上传视频文件:单击或拖拽上传本地视频文件至虚线框内。
支持中英文视频、MP4格式,视频大小需小于100 MB,分辨率小于1080P,时长不超过8分钟。
选择VL大模型并给VL大模型指令,对视频进行视觉语言分析:在选择VL大模型下拉列表中选择目标模型(支持通义千问VL-Max和通义千问VL-Plus)。在VL大模型的指令(Prompt)文本输入框中按需修改指令,或是单击恢复默认prompt。
选择大语言模型并给大语言模型指令,对最终输出的结果进行文本加工。
在选择大语言模型下拉列表中选择目标模型(支持通义千问-Max-Latest、通义千问-Plus-Latest、通义千问-Plus、通义千问-Max-Longcontext和通义千问-Max)。在给大语言模型的指令(Prompt)文本输入框中输入指令,例如角色、任务目标、限制条件等。您也可以使用系统预置的参考示例。
视频理解支持的功能如下:
设置其他可选输出项,您可以按需选择(支持多选)。
下图为完成效果调试后的视频理解效果。
查看API示例
效果调试完成后,单击API页签,您可以查看对应生成的API示例。
常见问题
支持处理哪些视频?
目前支持中英文视频、MP4格式,视频大小小于100 MB,分辨率小于1080P,时长不超过8分钟。
如果有大量视频需要处理,怎样提高视频处理效率?
目前视频处理API采取SSE协议,实时的流式处理方式,如果有大量视频需要处理,可以通过并行调用API的方式提高视频的处理效率,建议并发度控制在20 QPM以内,如果您需要更高并发可以联系我们处理。
视频处理中哪些步骤会消耗Token?怎样操作可以减少Token的消耗?
目前视频处理大致流程分为:视频ASR提取、切片、抽帧、视觉语言分析(消耗VL大模型Token),文本加工(消耗文本大模型Token)。
其中视频时长增长对文本加工Token消耗影响不大,视频越长、抽帧间隔越短,视觉语言分析Token消耗基本呈线性增长。
如果您对Token消耗有要求,可以考虑通过增加抽帧间隔(snapshotInterval[1~10])来降低Token消耗。但是抽帧间隔越长,视频理解的细腻程度会有所损耗。