音视频智能生产服务基于阿里云智能媒体AI技术,提供多种形式媒体内容处理及内容生成能力,支持智能封面、智能横转竖、绿幕抠图、人像抠图、智能图标模糊、智能去字幕、字幕提取、副歌检测、音乐节奏检测等多种媒体处理生成功能,提升媒体内容生产效率和质量。
功能概述
应用场景
传媒、娱乐视频智能生产对视频内容进行图标、字幕、抠图等处理,快速制作加工视频内容。
视频多端投放对一次拍摄产生的视频使用智能横转竖服务进行比例转换,生成适配不同终端播放的版本,向多种平台及终端进行投放和分发,提升视频内容传播效率。
功能特性
功能列表
处理类型
功能
服务名称
说明
音频类处理
副歌检测
MusicSegmentDetect
对歌曲进行段落分析,识别音乐中的副歌“高潮片段”,提取副歌段落时间信息,可以用于音乐推荐试听,热门片段K歌等场景。
节奏检测
AudioBeatDetection
节奏检测可分析识别音乐中的多层次的节奏点,返回节奏点时间信息,可用于音视频生产、音乐推荐等场景。
智能混音
AudioMixing
对多个输入音频进行音轨平衡处理及智能混音,输出混音合成音频,支持人声、音乐等多种音频处理。
音质检测
AudioQualityAssessment
识别输入音频静音、卡顿等问题。
智能降噪
SpeechDenoise
纯净人声在现实生活中会受到各种噪声干扰,使用智能降噪插件可以将噪声滤除并保持极高的语音保真度,从而提升语音质量和可懂度,为在线会议、在线教育等实时通信场景提供卓越的语音体验。
声伴分离
MusicDemix
识别音频中的人声和伴奏,快速分离成两个独立的音频文件。适用于卡拉ok的清唱、伴奏提取,任意音频的背景音提取,满足音频素材获取、后期制作、声音剪辑等需求。
视频类处理
智能封面
Cover
封面图片:选取展现视频内容效果最优的图片,作为视频的图片封面。
封面动图:提取视频多帧精彩瞬间,拼接生成GIF动图,作为视频的动图封面。
视频摘要
VideoClip
提取视频精彩内容片段,融合生成最具代表性的5s短视频摘要。
字幕提取
CaptionExtraction
识别视频中的字幕,提取文本内容及时间信息,输出为srt字幕文件,支持中英文字幕识别提取,可用于视频字幕加工场景。
字幕擦除
VideoDetext
采用文字检测及图像融合处理技术,智能检测并去除视频或图像中的文字字幕,还原视频纯净画面。
图标模糊
VideoDelogo
识别视频中的logo图标位置,并对图标进行模糊处理,恢复视频未添加logo的原始状态,辅助视频内容的后期制作及再生产。
视频横转竖
VideoH2V
识别视频画面主体,进行比例适应裁剪,将横屏拍摄的视频转换成适于移动端竖屏播放的视频,助力移动时代视频内容二次生产及多端传播投放。
绿幕抠图
VideoGreenScreenMatting
绿幕抠图对视频图像的画面前景背景进行分析提取,检测纯色背景并替换为指定的背景图,适用于影视制作、短视频制作及后期编辑场景。
视频美颜
FaceBeauty
基于智能视觉算法、人脸检测识别技术,提供视频文件的人脸美颜功能,支持自动检测并对人像进行磨皮、美白、红润等美颜处理,各项美颜参数可进行单独设置,适用于短视频制作、视频后期处理等场景。
图片类处理
图标模糊
ImageDelogo
识别图片中的logo图标位置,并对图标进行模糊处理,恢复图片未添加logo的原始态。
图片横转竖
ImageH2V
识别图片画面主体,进行比例适应裁剪,将横屏图片转换成适于移动端竖屏浏览的图片。
人脸风格化
ImageCartoonize
对图片中的人脸进行风格化转换,支持二次元、美漫等风格。
在线体验请单击智能生产在线体验。
使用限制
服务地域请参见服务地域。
创建智能生产模板
通过控制台创建
通过OpenAPI创建
创建智能生产任务
通过控制台创建
通过OpenAPI创建
查询智能生产任务详情
通过回调信息查询
通过OpenAPI查询
查询智能擦除任务用量
登录智能媒体服务控制台。
在左侧导航栏选择数据中心 > 用量查询。
在点播任务用量页签下视频AI区域查询或明细导出任务的时长用量。
说明为了保证数据安全,导出的下载链接有效期为30分钟。如果超时,请重新刷新页面。