全部产品
云市场

什么是多媒体AI

更新时间:2019-09-19 16:55:06

多媒体AI(MultiMedia AI)是一款基于文本分析、图像理解、语音识别的视频AI通用技术平台产品,利用多模态的视频理解能力提取视频中包含的结构化信息,生成符合大众审美的精彩集锦,适用于电商、传媒、泛娱乐等场景下的视频的检索和推荐;同时底层数据库提供海量的物体和人物库,支持上万级的基础标签识别和灵活的自注册能力,轻松应对业务多变性。

多媒体AI产品实例(以下简称 媒体AI实例)是对应AI服务以及一个能匹配推荐性能的环境,包含 CPU、内存等最基础的计算组件,是媒体AI支撑给每个用户提供服务的实际操作实体。媒体AI实例是以提供的能力服务为核心,以云服务器为基础的概念。其他的资源,比如磁盘、IP、镜像、快照等,只有与计算资源(ECS等服务资源)结合后才能使用。

多媒体AI由底层算法服务层、中间逻辑神经层和上层应用处理层组成。

  • 底层算法服务层:整合封装人脸识别、语音识别、通用标签、视频分类、logo识别(台标)等多项视觉理解算法,同时进行服务化集成,形成统一分析服务层,用于对输入内容进行结构化分析。
  • 中间逻辑神经层:通过上层输入的素材(clib、shot、sequence等)进行解析,同时将解析后的素材,调度转发对应底层算法服务,获取输出结果,同时将多个分析结果进行merge整合、交叉验证,完成后将merge后的结果数据向上输出。
  • 上层应用处理层:作为外部视频素材的统一输入通道,以API方式提供视频上传服务,同时约定上传格式以及大小等输入条件,提供视频分解服务,将上传的视频进行合理分解,供后端逻辑层进行调度分析。此外,上层应用层还提供了人脸库创建等工具型接口的透传,供用户实现应用配置。

相关基本概念

  • 应用:一个进行任务分析的算法分析事务,其中包含关联调用的算法服务、算法指标参数、配置模板、人脸库等应用数据,用户可以设置不同的人脸数据、置信度阈值和调用算法清单。其中最大的并发视频路数为5路。应用创建后可以变更和删除。
  • 人脸库:在一个用户下创建的业务数据单元,一个用户可以创建多个数据库,人脸库在实例内的命名唯一,人脸总数10w张。
  • 任务:视频分析的最小单元,对视频状态、视频分析结果进行说明。

    限制说明

  • 并发5路:指用户能够提交同时进行分析的最大视频文件数量,超过此数量则提交的视频分析任务默认进入队列等待。
  • 视频分析时长:指视频提交完成后,开始分析时计算,结束时间以任务分析完成时的回执通知消息时间为准。
  • 倍速:单个处理倍速=视频实际时长/最差任务运行时长(不算入下载时长)。

产品流程示意图

流程示意图