视频生成服务基于领先的媒体AI技术,提供多种形式媒体内容处理及内容生成能力,支持智能封面、智能横转竖、绿幕抠图、人像抠图、智能图标模糊、智能去字幕、字幕提取、副歌检测、音乐节奏检测、PPT拆条等多种媒体处理生成功能,提升媒体内容生产效率和质量。

产品功能

  • 智能封面:通过对视频内容的理解,结合画面美学和海量生产数据,选出最优的关键帧或关键片段作为视频封面,提升视频点击转化及用户体验。
    • 封面图片:选取展现视频内容效果最优的图片,作为视频的图片封面。
    • 封面动图:提取视频多帧精彩瞬间,拼接生成GIF动图,作为视频的动图封面。
  • 视频摘要:提取视频精彩内容片段,融合生成最具代表性的5s短视频摘要。
  • 图标模糊:智能识别视频中的logo图标位置,并对图标进行模糊处理,恢复视频未添加logo的原始状态,辅助视频内容的后期制作及再生产。
  • 智能横转竖:智能识别视频画面主体,进行比例适应裁剪,将横屏拍摄的视频转换成适于移动端竖屏播放的视频,助力移动时代视频内容二次生产及多端传播投放。
  • 智能去字幕:采用文字检测及图像融合处理技术,智能检测并去除视频或图像中的文字字幕,还原视频纯净画面。
  • 人像抠图:人像抠图采用海量数据训练的神经网络模型,自动检测视频图像中的人像轮廓,进行高清细节抠图,精确提取人像图像。
  • 绿幕抠图:绿幕抠图可对视频图像的画面前景背景进行分析提取,检测纯色背景并替换为指定的背景图,适用于影视制作、短视频制作及后期编辑场景。
  • 字幕提取:对视频中的字幕进行识别,提取字幕文本内容及时间信息,输出为srt字幕文件,支持中英文字幕识别提取,可用于视频字幕加工场景。
  • 副歌检测:对歌曲进行段落分析,识别音乐中的副歌“高潮片段”,提取副歌段落时间信息,可以用于音乐推荐试听,热门片段K歌等场景。
  • 音乐节奏检测:音乐节奏检测可分析识别音乐中的多层次的节奏点,返回节奏点时间信息,可用于音视频生产、音乐推荐等场景。
  • 智能混音:智能混音对多个输入音频进行音轨平衡处理及智能混音,输出混音合成音频,支持人声、音乐等多种音频处理。
  • PPT拆条:对包含PPT演示的视频进行智能分析,将PPT演示视频拆分成多个时间片段,并自动为每个片段生成标题,用于场景课程类视频自动编辑。

应用场景

  • 传媒、娱乐视频智能生产。

    对视频内容进行图标、字幕、抠图等处理,快速制作加工视频内容。

  • 视频多端投放。

    使用智能横转竖服务,将一次拍摄产生的视频进行比例转换,生成适配不同终端播放的版本,向多种平台及终端进行投放和分发,提升视频内容传播效率。

前提条件

  1. 服务开通
  2. 账号准备
    准备好访问媒体处理服务使用的Access Key,支持主账号、RAM用户方式访问。
  3. 如需接收任务状态回调通知,需要在管道中配置消息队列MNS,请参见开启管道,相关概念请参见作业和管道
  4. 调用视频生产服务的音视频文件,需要先上传视频文件,媒体库说明请参见媒体库

使用方式

  1. 提交智能生产作业

    已成功上传到媒体库的视频、图片、语音文件,可以通过API和SDK方式提交智能生产作业,通过指定FunctionName进行各项服务能力调用。具体请参见提交智能生产作业

  2. 接收回调信息

    完成智能生产作业后,如果配置了管道MNS消息队列事件通知,会向消息服务指定的队列或主题发送消息,具体请参见接收消息通知

  3. 查询作业结果

    您可通过API和SDK方式查询智能生产作业的状态结果,按照智能生产任务ID进行查询,具体请参见查询智能生产作业