音视频搜索
产品简介
基于CleverSee平台搭建的音视频搜索能力,支持文(自然语言)、图、图文混合输入,可以进行纯音频、纯视频或音视频场合的混合检索,支持返回片段/完整音视频。主打通过自然语言对视频的描述,实现对不同视频时长,不同视频题材的深度理解检索。
核心场景
音视频搜索场景 | 场景 |
视频内容平台 | 面向影视剧、综艺、短视频等内容库,支持按剧情、场景、台词等维度检索视频内容,提升用户的内容消费体验。 |
影视媒体资产(音频、视频)检索 | 服务于媒资管理、剪辑创作等场景,可通过自然语言快速定位音视频中的目标片段、事件或台词,适用于电视台、媒体机构及内容生产平台等。 |
企业会议与培训视频 | 支持会议录像、培训课程的搜索与问答,可快速定位关键决策、重点结论及相关讨论内容,提高知识沉淀与复用效率。 |
教育课程录播检索 | 针对知识点、课程内容进行精准搜索与问答,支持定位课程中的对应时间片段,帮助学员快速查找和复习相关内容。 |
使用方式

1. 资源开通
在CleverSee内通过阿里云官网账号登录,并开通产品资源包。
2. 数据上传
请先至产品界面内创建数据集,通过本地上传、excel/csv上传、或API导入的方式上传数据,等待数据集完成处理。详细操作请查看数据导入与管理
3. 应用创建
数据集呈就绪状态时,至创建应用界面,点击创建音视频类搜问应用。

图:创建应用弹窗
4. 搜索应用配置
在左上角关联先前创建的音视频数据集,并通过当前界面配置搜索应用,同时可以在右侧预览界面查看当前配置下的实时搜索结果。右侧配置界面支持图文混合输入,图片上限为1张(10mb),文字上限为256字符,可以切换至手机或电脑展示样式

图:搜索应用配置与预览界面

图:数据集关联
策略配置
搜索配置
自动纠错:开启后会识别并纠正Query内的拼写错误。注:开启后搜索延时会相应增加
Query 改写:开启后会针对Query进行改写,提升搜索效果。b开启后搜索延时会相应增加
召回配置
搜索对象:支持切换搜索到的对象,分为片段和视频两种。默认为片段搜索。
搜索对象 | 返回结果 | 预览页面 |
片段 | 搜到数据集内符合搜索query条件的音视频片段(可能来自不同音视频),结果页会按照相关性进行排序。*在一个搜索query下,同一视频可能返回多个片段。 注:预览界面内,可以通过点击左右箭头,切换至下一个结果。如需查看同一视频内的其他符合搜索条件的结果,请点击视频播放界面下方的片段列表查看。 |
图:片段搜索结果(手机版)
图:片段播放与切换(手机版)
图:同一视频返回多个片段时(手机版) |
视频(完整视频) | 搜到数据集内符合query条件的完整音视频,结果页会按照相关性进行排序 |
图:搜索对象为完整视频时(电脑版) |
返回结果数量上限:为当前应用下一次搜索的翻也数量上限,默认10

图:返回结果数量上限配置
最大返回片段时长:当搜索对象为片段时,可以配置该项。打开后,可以配置最大返回的片段时长,超出该长度的片段将调整至符合时长的片段进行返回。注:若配置时长过低(如低于最小切片时长),则可能出现该片段无法召回的情况

图:最大返回片段时长配置
提降权配置:
针对业务上传的字段进行提降权配置,多条规则可以叠加。对不同的字段类型,支持的排序规则可能会不同。

图:提降权配置
视频AI标签提降权:基于大模型对视频的理解,可以对含有特定内容、主题、拍摄手法的片段进行提、降权。可以于下拉框内选择(多选)并应用提降权生效的范围


图:使用了AI标签的提降权配置
结果过滤配置
过滤静音:开启后可以过滤完全无声的搜索结果
过滤黑屏:开启后可以过滤完全黑屏的搜索结果

图:静音与黑屏过滤
字段过滤:针对业务上传的字段进行过滤配置,多条规则可以叠加。对不同的字段类型,支持的过滤规则可能会不同。

图 :字段过滤规则配置
视频AI标签过滤:基于大模型对视频的理解,可以对含有特定内容、主题、拍摄手法的片段进行过滤。被过滤后的结果不会展示在搜索结果内。可以于下拉框内选择(多选)并应用提降权生效的范围


图:使用了AI标签的字段过滤配置
5. 应用发布与接入
应用发布:
点击右上角发布配置后,选择要发布的应用类型,确认变更内容后,点击发布

图:应用发布

图:变更预览确认
应用接入:
支持通过应用发布的弹窗直接跳转至接入中心,或点击接入中心后,找到当前应用类型下所需的接入信息

图:接入中心跳转

图:接入方式选择




