媒体处理提供视频生产、媒体审核、视频DNA、智能标签等视频AI服务。本文为您简要介绍这些功能。

应用场景

视频AI服务可以对音视频内容进行识别、分析和理解。通过使用视频AI服务,您可以:
  • 分析文件内容生成智能封面、绿幕抠图、智能图标模糊等多种媒体处理功能。
  • 进行内容审核,检测违规的视频内容,适用于短视频平台、直播平台、传媒审核等场景。
  • 识别并搜索视频中重复或相似片段,适用于原创识别、视频查重、快速审核、广告分成、视频溯源等场景。
  • 准确识别内容,自动输出多维度标签,适用于媒资检索、个性化推荐、智能广告投放等场景。

功能介绍

  • 视频生产:基于阿里云媒体AI技术,提供多种形式的媒体内容处理及内容生成能力,提升媒体内容生产效率和质量。
    • 智能封面:通过对视频内容的理解,结合画面美学和海量生产数据,选出最优的关键帧或关键片段作为视频封面,提升视频点击转化及用户体验。
      • 封面图片:选取展现视频内容效果最优的图片,作为视频的图片封面。
      • 封面动图:提取视频多帧精彩瞬间,拼接生成GIF动图,作为视频的动图封面。
    • 视频摘要:提取视频精彩内容片段,融合生成最具代表性的5s短视频摘要。
    • 图标模糊:智能识别视频中的logo图标位置,并对图标进行模糊处理,恢复视频未添加logo的原始状态,辅助视频内容的后期制作及再生产。
    • 智能横转竖:智能识别视频画面主体,进行比例适应裁剪,将横屏拍摄的视频转换成适于移动端竖屏播放的视频,助力移动时代视频内容二次生产及多端传播投放。
    • 智能去字幕:采用文字检测及图像融合处理技术,智能检测并去除视频或图像中的文字字幕,还原视频纯净画面。
    • 智能抠图:包含人像抠图和绿幕抠图。
      • 人像抠图:人像抠图采用海量数据训练的神经网络模型,自动检测视频图像中的人像轮廓,进行高清细节抠图,精确提取人像图像。
      • 绿幕抠图:绿幕抠图可对视频图像的画面前景背景进行分析提取,检测纯色背景并替换为指定的背景图,适用于影视制作、短视频制作及后期编辑场景。
    • 字幕提取:对视频中的字幕进行识别,提取字幕文本内容及时间信息,输出为srt字幕文件,支持中英文字幕识别提取,可用于视频字幕加工场景。
    • 歌曲检测:对副歌和音乐节奏进行检测。
      • 副歌检测:对歌曲进行段落分析,识别音乐中的副歌“高潮片段”,提取副歌段落时间信息,可以用于音乐推荐试听,热门片段K歌等场景。
      • 音乐节奏检测:音乐节奏检测可分析识别音乐中的多层次的节奏点,返回节奏点时间信息,可用于音视频生产、音乐推荐等场景。
    • 智能混音:智能混音对多个输入音频进行音轨平衡处理及智能混音,输出混音合成音频,支持人声、音乐等多种音频处理。
    • PPT拆条:对包含PPT演示的视频进行智能分析,将PPT演示视频拆分成多个时间片段,并自动为每个片段生成标题,用于场景课程类视频自动编辑。
  • 媒体审核:基于海量标注数据和深度学习算法,提供视频图像文件内容质量审核功能,从语音、文字、视觉等多维度精准识别媒体文件中包含的违禁内容。
    • 媒体内容审核:对媒体文件的标题、简介、内容、封面等媒资全维度内容进行审核,识别语音、文字、画面中的违规内容。
      • 涉黄识别:通过神经网络算法结合实时更新的亿级样本库,智能识别语音、文字、画面中的色情和性感内容。
      • 暴恐涉政识别:采用深度学习算法结合实时更新的样本库,快速识别武器、血腥场面、特殊装束、爆炸烟光、特殊标识、聚众、游行等十余个维度的暴恐涉政内容。
      • 广告/二维码识别:智能检测媒体文件中的文字、水印、二维码,有效识别牛皮癣广告、二维码、小程序码等多种形式的图文广告。
      • Logo识别:采用目标检测技术,精准识别视频图片中的各种logo图标,如台标、商标、水印等,常用于版权保护等场景。
      • 不良场景识别:结合行为分析和时间序列对比技术,精准识别画中画、吸烟、车内直播、无意义画面等需要监管的不良场景。
      • 语音垃圾识别:采用先进的声学模型与语言模型,识别语音中存在的涉黄、暴恐涉政、辱骂等违规信息,支持中文、英文语音识别。
    • 媒体质量审核:对媒体文件的内容质量进行分析,识别画面、音频中的多种类型质量问题。
      • 画面质量审核:识别媒体文件画面质量问题,包括抖动重影、模糊、低光照、过曝光、黑屏、白屏、噪点、马赛克、雪花、静帧、跳帧、二次录制等。
      • 音频质量审核:对媒体音频质量进行智能分析,识别音频卡顿、静音、无音轨等音频质量问题。
      • 美观度分值:综合评判画面质量与画面美感,给出视频美观度分值,衡量视频内容美观度质量。
  • 视频DNA:基于阿里云视频识别技术,通过一个二进制串来唯一标记一个视频,提供提取视频中图像、音频等指纹特征对比功能,可以解决重复视频查找、视频片段查源等问题。
    • 原创识别:准确识别是否为原创视频、编辑变换后视频、自媒体再创作视频。解决短视频领域维权问题,为视频素材交易生态提供技术基础,防止侵权视频侵害原创者及视频平台利益。
    • 视频查重:建立独立视频DNA库,在该库中对样本视频完成快速比对,实时召回重复视频或重复片段。防止内容分发和个性化推荐时,出现过多相同或相似视频而影响用户体验。
    • 快速审核:通过维护违规视频库或自定义黑库,对增量视频,快速进行DNA比对并判断是否有违规内容。相比传统审核,提高大量视频过审的效率,保障准确性,降低审核的成本。
    • 广告分成:通过视频DNA技术,检索分成广告库,对特定广告进行监播和识别。有利于支撑广告动态分成业务生态,轻松把控广告投放的时间、次数等,同时保障了广告版权方和投放平台的利益。另外,在此基础上,可以进行广告的高效识别、替换及广告位竞拍。
    • 视频溯源:对于新增视频,在庞大的DNA库中进行快速检索,以定位一个视频的传播路径。有效解决视频溯源、传播路径分析或挖掘媒体资源之间联系的问题。
  • 智能标签:基于对视频中的视觉、文字、语音、行为等信息进行分析,结合多模态信息融合及对齐技术,实现高准确率内容识别,同时将非结构化信息转化为结构化信息。
    • 多维度信息识别:从视觉、文字、语音、运行行为等多个维度对视频信息进行分析,识别视频中的人物、物体场景、地标、文字、语音等内容。
      • 视觉识别:分析视频的视觉图像信息,识别人物、物体、场景等图像内容。
      • 文字识别:识别视频图像中的文字,提取图像文本内容。
      • 语音识别:分析视频中的语音信息,提取语音文本内容。
      • 运动行为识别:分析视频动态信息,识别运动、动作、行为事件等内容。
    • 多模态融合理解:采用多模态融合对齐、跨模态映射等技术,对媒体内容进行多模态融合识别,高效、精准理解视频内容。
      • 多模态对齐:识别多模态间不同元素的联系和对齐关系,实现视频文字、语音、视觉等不同模态信息的对齐理解。
      • 多模态融合:整合不同模态间的模型和特征,提高理解能力和效率,实现语音文字文本纠错能力,提升识别准确率。
      • 多模态联合表征:将多模态信息进行整合及联合表征,实现视频内容的一体化识别。
    • 丰富灵活的标签:结合成熟完善的媒体标签体系,根据多模态融合理解结果对媒体文件进行智能打标,输出多维度视频标签信息,同时提供灵活的标签自定义功能。
      • 智能标签提取:标签处理集成自定义过滤、标签去重、标签合并、权重排序等算法,提供高效、准确、实用的智能打标能力。
      • 多维度标签输出:结合融合理解结果及标签体系,输出多维度视频标签,包括视频分类标签、人物标签、物体场景标签、文本标签等。具体标签类别包括:人脸、地域、标识、组织机构、表情、人物角色、动作事件、场景、物体、视频分类等大类标签,及上万个细分标签。
      • 支持自定义标签:支持地标词库注册、人脸自注册、未知人脸聚类、标签黑名单、标签热词等标签自定义功能,满足不同场景下的使用需求。

功能使用