影视传媒视频理解轻应用支持借助视频处理、视频理解、大语言模型的串联能力,实现对视频里指定要点的理解和提取,并按要求生成指定类型的文案、提取标签、洞察分析等。
影视传媒视频理解应用按实际调用模型对应的输入、输出Token以后付费方式来计费。具体请参见全妙AI Agent-视频理解计费文档。
关于Token的计算方法和模型的计费详情,请参见计费项说明。
您可点击链接开通影视传媒视频理解。
功能概述
影视传媒视频理解轻应用通过整合视频处理、自动语音识别(ASR)、视觉语言模型(VLM)和大语言模型(LLM)等算法能力,构建了一套通用视频理解方案,支持视频描述、结构解析、标签分类、视频问答、内容挖掘、视频检索、分析场景和营销场景等8大常见应用,并内置了24个对应子任务模板。用户可以参照模板修改调试来适配或自定义自己的业务场景。整体来说,在基础模型基础上,支持更细粒度理解和更复杂任务;在功能上,支持1次VL视觉理解便可复用并完成多个下游子任务。
操作指引视频示例
功能入口
登录阿里云百炼大模型服务平台,在应用广场页面,单击影视传媒视频理解即可进入该轻应用控制台。
功能介绍
应用详情
在影视传媒视频理解应用的应用详情页签,您可以查看功能描述、目标客群、最佳实践、使用步骤、计费规则、全妙相关应用推荐、视频理解相关解决方案七部分内容。
效果调试
单击效果调试页签,您可以参考以下步骤设置配置项。
设置视频处理配置项。
上传视频文件:单击或拖拽本地视频文件至虚线框内。
支持中英文视频、MP4格式,视频大小需小于100 MB,分辨率小于1080P,时长不超过10分钟。
如果视频超过10分钟,您可以调用异步API实现。功能相同,但目前不支持页面上预览结果。
请在API页面查看调用方式详情:
可选:输入视频相关的补充文字资料,辅助大模型理解。
设置视觉语言分析(VL分析)配置项。通过多模态大模型分析视频各个片段里的详细信息,例如角色、动作、画面内容等。生成的内容是一个中间结果,主要服务于第3步的进一步加工处理,输出结果较长,可不做重点关注。
选择VL大模型:目前支持通义千问VL-Max-Latest、通义千问VL-Max、通义千问VL-Plus-Latest、通义千问VL-Plus。
输入VL大模型的指令(Prompt):按照模板填写输入给到VL大模型的指令。
设置文本加工配置项。结合您的具体目标,在下方输入相应prompt,包括但不限于视频内容摘要、标签抽取、视频分类。
选择大语言模型,目前支持通义千问-Max-Latest、通义千问-Max、通义千问-Plus-Latest、通义千问-Plus。
输入大语言模型的指令(prompt):可选用参考示例中的场景应用,支持视频描述、结构解析、标签分类、视频问答、内容挖掘、视频检索、分析场景和营销场景等8大常见应用,并内置了24个对应子任务模板。
视频理解支持的功能如下:
设置其他可选输出项配置项(内置能力),包含视频时间戳+字幕、视频内容总结成思维导图、总结生成视频标题。
设置高级功能配置项,包含抽帧策略配置、多语言识别、人物身份识别。
抽帧策略配置:支持快速、标准和自定义抽帧方式,抽帧时间间隔越长,对视频里的信息抓取和理解的细致度就越差,但处理一个视频耗费的Token会变少。
多语言识别:支持五种语言形式的视频分析,包含中文、英语、法语、日语、中英文融合。
人物身份识别:支持对视频中的人物进行识别,最多支持识别3个人物,每个人物可上传1张图片。
点击开始分析。按照输入的内容,大模型可以进行理解、学习生成,您可以在右侧查看第4步结果(视频时间戳+字幕、视频内容总结成思维导图、总结生成视频标题)、视觉语言分析结果和文本加工结果。
下图为视频理解示例:
查看API示例
效果调试完成后,单击API页签,您可以查看对应生成的API示例。
支持实时和异步两种模式:
实时模式:在线调用:
共享资源池,共享并发。
最多支持1并发。
支持处理的视频时长最多不超过10分钟,且接口会在10分钟内返回处理结果 。
异步模式:离线调用:
共享资源池,共享并发。
每个阿里云主账号提供2个免费并发,且支持扩并发,最多支持扩展到10并发。
任务可在24小时内处理完毕。一次任务不超过1万个视频文件,每个视频时长不超过1小时。
相关文档
接口文档:视频理解
视频理解与内容提取的解决方案:解决方案地址
视频理解的应用实践:应用视频理解和一键成片的最佳实践
常见问题
1、支持处理哪些视频?
目前支持中英文视频、MP4格式,视频大小小于100 MB,分辨率小于1080P,时长不超过8分钟。
2、如果有大量视频需要处理,怎样提高视频处理效率?
目前视频处理API采取SSE协议,实时的流式处理方式,如果有大量视频需要处理,可以通过并行调用API的方式提高视频的处理效率,建议并发度控制在20 QPM以内,如果您需要更高并发可以联系我们处理。
3、视频处理中哪些步骤会消耗Token?怎样操作可以减少Token的消耗?
目前视频处理大致流程分为:视频ASR提取、切片、抽帧、视觉语言分析(消耗VL大模型Token),文本加工(消耗文本大模型Token)。
其中视频时长增长对文本加工Token消耗影响不大,视频越长、抽帧间隔越短,视觉语言分析Token消耗基本呈线性增长。
如果您对Token消耗有要求,可以考虑通过增加抽帧间隔(snapshotInterval[1~10])来降低Token消耗。但是抽帧间隔越长,视频理解的细腻程度会有所损耗。
4、离线调用怎么扩并发?
您可以通过GetVideoAnalysisConfig - 视频理解-获取配置、UpdateVideoAnalysisConfig - 视频理解-更新配置接口查看和扩缩并发。