媒体处理可以将一个音视频文件转换成另一个或多个音视频文件,以适应不同网络带宽、终端设备和用户的需求。对媒体的内容、文字、语音、场景进行多模态分析,实现智能审核、内容理解、智能编辑等多种处理功能。

音视频转码

音视频转码是将一个音视频文件转码为标清、高清、超高清等多个清晰度和格式,以便不同网络带宽、终端设备和用户选择适合自己的码率和协议流畅播放,流畅播放。支持的文件格式、编码级别、扫描方式等如下表:

参数 类型 说明
终端类型 不涉及 移动端、TV端、网页端、小程序、VR等终端平台。
输入格式 封装格式
  • 视频:3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MKV、MOV、TS、WebM、MXF。
  • 音频:MP3、OGG、FLAC。
  • 字幕:ASS、SRT、VTT。
视频编码格式 H.264/AVC、H.263、 H.263+、H.265/HEVC、MPEG-1、MPEG-2、MPEG-4、MJPEG、VP8、VP9、Quicktime、RealVideo、Windows Media Video。
音频编码格式 AAC、AC3、EAC3、ADPCM、AMR、DSD、MP1、MP2、MP3、PCM、RealAudio、Windows Media Audio。
输出格式 封装格式
  • 视频:FLV、MP4、HLS(M3U8+TS)、MPEG-DASH(MPD+fMP4)、TS。
  • 音频:MP3、MP4、OGG、FLAC、M4A。
  • 图片:GIF、WEBP。
重要
  • 容器格式为GIF时,VideoCodec设置只能设置为GIF。
  • 容器格式为WEBP时,VideoCodec设置只能设置为WEBP。
  • 容器格式为FLV时,VideoCodec不能设置为H.265。
  • 转码后的封装格式Container说明,请参见Container详情
视频编码格式 H.264/AVC、H.265/HEVC、GIF、WEBP。
说明 转码后的视频编码格式Video说明,请参见Video详情
音频编码格式 AAC、AC3、EAC3、MP3、VORBIS、FLAC。
说明 转码后的音频编码格式Audio说明,请参见Audio详情
输入文件大小 不涉及 最大100 GB。
输出分辨率 不涉及
  • H.264输出分辨率范围为[128,4096],单位为px。
  • H.265输出分辨率范围为[128,8192],单位为px。
输出码率 不涉及
  • H.264输出码率范围为[10,50000],单位为Kbps。
  • H.265输出码率范围为[10,200000],单位为Kbps。
输出帧率 不涉及 输出帧率范围为(0,60],单位为fps。
颜色格式 不涉及 yuv420p、yuvj420p(pc、bt470bg、bt470bg、smpte170m等标准格式需要配置兼容)。
编码级别 不涉及 H.264支持Baseline、Main、High三种编码级别。
码率控制方法 不涉及 VBR、CBR、CRF。
扫描模式 不涉及 支持interlaced、progressive、auto。
转封装 不涉及 不改变音视频流的编码方式,仅改变封装格式。支持音视频转封装为MP4、HLS(M3U8+TS)、FLV三种格式。

窄带高清TM

窄带高清TM是一项基于阿里云转码技术的媒体处理功能,通过提高视频压缩率、减小文件体积,从而减少播放卡顿并节省存储和流量费用。

重要 以下功能需要在提交转码作业时选择对应窄带高清转码模板使用,按照输出的视频规格和时长,收取窄带高清转码费用。计费说明请参见转码定价
类型 说明
窄带高清TM1.0 针对视频画面场景、动作、内容、纹理等细节进行智能分析,实现在同等画质下平均节约20~40%码率、在同等带宽下更高清的观看体验。支持H.264、H.265编码,其他参数同音视频转码。单击在线体验
窄带高清TM2.0 突破视频编码器能力上限并融入轻量画质修复与增强能力,实现在同等画质下平均节约40%~60%码率、在低带宽下更高清优质的观看体验。支持H.264、H.265编码,其他参数同音视频转码。单击在线体验

音视频增强

音频增强

视频云音频实验室有机结合传统信号处理与深度学习技术,提供全场景音频增强与修复方案。单击在线体验
重要 以下功能需要在提交转码作业时选择对应音频增强转码模板使用,音频部分按照输出的音频规格和时长,收取音视频增强费用。视频部分按照使用的服务,收取转码费用。计费说明请参见音视频增强费用转码费用
功能 说明
杜比音效 支持将普通音频转码为杜比格式,配合阿里云播放器SDK可以在杜比设备上开启杜比专属音效。支持杜比格式兼容为普通格式,实现杜比片源在非杜比设备可以顺利播放。
全景声 全景声空间音频技术,提供更加沉浸、真实的体验。
虚拟环绕声 支持将5.1/7.1多声道音频转码为双声道音频,并保留多声道环绕效果,实现在非家庭影院设备上播放(如使用手机、平板、耳机、电视)也可体验到高质量音源的环绕声效果。
音频降噪 滤除噪声并保持极高的人声语音保真度,从而提升语音质量和可懂度,解决在视频收音环节因设备或环境引入的噪声问题。
音量归一 智能调节视频响度,进行归一化处理。解决短视频、音乐连播场景下,因内容源音量参差不齐,带来音量忽大忽小的问题。

视频增强

重要 以下功能需要在提交转码作业时选择对应视频增强转码模板使用,按照输出视频的规格、帧数收取转码费用。计费说明请参见音视频增强费用
从视频清晰度、色彩、流畅性等维度进行全面提升,实现4K/8K超高清生产、标清转高清、互联网UGC内容优化、老旧视频修复等典型媒体处理诉求。最终通过更高品质的视听内容提升用户体验,带来客户转化与观看时长的提升。单击在线体验
功能 说明
超分 采用超分辨率技术,在还原更多画面细节的同时修复模糊、噪声等轻微损伤,同时针对人像区域进行重点还原。可将低清晰度的视频生成720p或1080p的高清版本,将高清影片生成高品质的2K或4K节目源。
插帧 采用智能分析+动态补偿技术,针对画面运动的不同而采用智能插帧策略。实现最高120fps的无级插帧,解决由帧率带来的平移卡顿、画面抖动等问题。
视频修复 对视频在采集、压缩、物理放映等环节导致的严重损伤问题,如压缩噪声、块效应、划痕、霉斑等进行智能修复,同时保持帧间稳定性与细节还原性。
HDR
  • SDR转HDR技术,将SDR视频进行全自动色域变化与提升,实现HDR色彩、BT.2020色域、10bit位深。
  • HDR转SDR技术,将HDR视频兼容为普通设备也可播放的SDR,解决画面过曝偏色问题。
SDR+ SDR色彩增强技术,在SDR色域下结合场景与内容分析,对视频曝光、对比度、饱和度、白平衡等维度进行智能优化,在实现更优主观体验的同时保持色彩的稳定、统一。

倍速转码

将视频源切分为多个较小的片段后并行转码,可将转码速度提升5~30倍,显著缩短处理耗时,适用于对首发、时效性要求较高的资讯、赛事、重要内容场景。

重要 倍速需要通过提交转码作业并启用倍速管道使用,按输出的视频规格、时长和倍速收取倍速转码费用。计费说明,请参见转码定价
类型 说明
加速倍数 根据输入视频情况,一般可达到5~30倍。
适用视频 推荐30分钟以上的长视频,或对高帧率、超高清、音画增强等复杂处理的视频采用倍速转码。
倍速策略 并非所有视频都支持切片,投递到倍速管道中但不支持倍速的视频,会默认退避到非倍速模式转码。

更多处理

媒体信息

获取存储于OSS上的音视频文件信息,包括分辨率、码率、帧率、编码格式、文件格式等关键信息。

重要 该功能需要通过提交媒体信息作业使用,按请求次数,收取接口请求费用。计费说明,请参见接口请求定价

简单剪辑

对视频进行提取音频、提取视频、拼接、剪辑、混音等简单的二次创作。

重要 以下功能需要通过提交转码作业时设置相应参数使用,按输出的视频规格和时长,收取转码费用。计费说明,请参见转码定价
功能 说明 API相关参数 控制台操作
提取音频 从视频文件中单独分离出音频,即禁用视频。 Remove 支持
提取视频 从视频文件中单独分离出视频,即禁用音频。 Remove 支持
视频去黑边 检测视频画面中的黑边,并自动剪裁。 Crop 不支持
视频剪裁 指定输入视频画面经过剪裁后保留的宽度和高度,以及该保留画面与输入画面左边、上边的相对距离,两个画面的间隙自动剪裁。 Crop 不支持
视频贴黑边 指定输入视频画面经过贴黑边后输出的宽度和高度,以及输入画面与输出画面左边、上边的相对位置,两个画面的间隙使用黑边填充。 Pad 不支持
横竖屏自适应 开启后,输出分辨率由宽度、高度,变为长边、短边参数。当您的输入视频同时包含横屏、竖屏时建议开启该参数。 LongShortMode 支持
视频旋转 设置视频旋转角度。 Rotate 支持
视频拼接 将最多100个视频进行拼接,可设置每个被拼接视频的开始、持续时间。 MergeList或MergeConfigUrl 不支持
视频剪辑
  • 视频片段剪辑:从指定时间点,开始截取指定时长的视频。
  • 片尾剪辑:截掉指定时长的片尾。
Clip 支持
开场和关板 在视频开头叠加动态Logo,并指定片尾内容。增加产品识别度,突出版权。 OpeningList和TailSlateList 支持添加片尾
模糊处理 对视频内的指定区域进行模糊处理。 DeWatermark 不支持
混音 实现两音轨合并,适用于增加背景音乐场景。 Amix 不支持

视频截图

对视频截取指定时间、指定尺寸的图片,用于生产视频封面、雪碧图、播放器进度条缩略图。

重要 以下功能需要通过提交截图作业使用,按截图张数,收取接口请求费用。计费说明,请参见接口请求定价
功能 说明 API相关参数 控制台操作
静态截图 对视频截取指定时间、指定尺寸的JPG图片。
  • 单张截图:输出指定时间点的一张截图。支持同步或异步调用。
  • 多张截图:从指定时间点开始,每隔指定时间间隔(秒)就截取一张截图。仅支持异步调用。
  • 平均截图:从指定时间点开始,按指定的截图数量按照相同的间隔时间进行平均截图。仅支持异步调用。
SnapshotConfig 支持
雪碧截图 截取一系列图片,并按照一定的排列规则拼成一张大图,而这张大图即为雪碧图。格式为JPG。仅支持异步调用。通过一次请求雪碧图可获取多张图片的信息,实现大幅降低图片请求数量,提高客户端性能。 TileOut 不支持
WebVTT截图 WebVTT截图即根据所有截图信息生成VTT的文件,截图的基本信息(截图时间、截图地址)会记录到VTT文件中,在使用缩略图时需要先获取VTT的内容,解析截图的信息进行展示,可用于播放器进度条缩略图展示。 SubOut 支持
首帧黑屏检测 开启后,截图时会检测视频的前5秒,如果前5秒内存在画面,则截取第一帧非黑屏的画面。 BlackLevel 支持
关键帧截图 开启后,截图时只截取关键帧,如对应指定时间点为非关键帧,则就近选取关键帧。 FrameType 支持

视频水印

在视频中添加可见的明水印(例如,企业Logo、电视台台标),突出品牌和版权增加产品识别度。

重要 以下功能需要通过提交转码作业使用,指定水印素材和水印模板(可选)使用,按输出的视频规格和时长,收取转码费用;同时按水印个数,收取接口请求费用。计费说明,请参见音视频转码费用接口请求定价
功能 说明 API相关参数 控制台操作
图片水印
  • 单个视频最多添加4组水印,支持设置水印开始时间、持续时长、出现的固定位置、水印大小。
  • 图片水印支持PNG图片、PNG动图、MOV格式的动图。
WaterMarks 支持
文字水印
  • 单个视频最多添加4组水印,支持设置水印开始时间、持续时长、出现的固定位置、水印大小。
  • 文字水印可设置文字内容、字号、字体、颜色、透明度、描边效果等。支持的字体及颜色请参见字体列表颜色
WaterMarks 不支持
说明 为视频添加不可见的盲水印用于版权追溯,详细说明请参见下文数字水印说明。

添加字幕

在视频中添加字幕,在多语言片源、或视频静音或环境嘈杂的场景、或令听障人士也能无障碍的理解和欣赏视频。

重要 以下功能需要通过提交转码作业配置工作流发起转码使用,按输出的视频规格和时长,收取转码费用。计费说明,请参见音视频转码费用
功能 说明 API相关参数 控制台操作
硬字幕 将字幕文件烧制到视频画面中,即把画面的一部分像素替换为字幕内容。字幕格式支持SRT、ASS格式,可设置字幕字体。硬字幕不依赖播放器,在所有场景下都可以播放显示。 SubtitleConfig 不支持
打包字幕 通过工作流打包将字幕文件与音视频流打包到同一个Master Playlist(m3u8或mpd文件)中,一个Master Playlis最多添加4路字幕,可以实现在播放器中切换多版本字幕的能力。字幕格式:HLS打包支持VTT,DASH打包支持VTT、STL、TTML。
  • HLS打包:ExtXMedia
  • DASH打包:inputconfig
支持

视频打包

打包是指将多码率、多音轨、多字幕、多音轨生成一个Master Playlist文件的过程。在流媒体播放场景下,可以实现:
  • 自适应码流:根据网络情况自适应码流,可以解决起播慢、播放卡顿问题。
  • 广告植入:在两个分片之间灵活插入视频广告。
重要 以下功能需要通过配置工作流发起转码使用,按输出的视频规格、时长,收取转码费用。计费说明,请参见音视频转码费用
功能 说明 API相关参数 控制台操作
HLS协议 使用Apple HLS协议进行打包,支持二级索引,索引文件格式为m3u8,视频文件格式为ts。 参见如何进行HLS打包 支持
DASH协议 使用DASH ISO协议进行打包,支持一级索引,索引文件格式为mpd,视频文件格式为fmp4。 参见如何进行DASH打包 不支持
自定义分片时长 指定最多10个分片时间点,和其余时长的分片间隔。范围1至60秒。有助于用户根据播放端带宽条件来设定切片时长,降低用户首屏加载时间。 Segment 不支持

视频加密

重要 以下功能需要通过配置工作流发起转码使用,按输出的视频规格、时长,收取转码费用。计费说明,请参见音视频转码费用
功能 说明 API相关参数 控制台操作
HLS标准加密 将视频内容按照HLS AES-128标准协议进行加密,在HLS规定的播放器上均可解密播放。可保障移动端视频安全。具有安全级别较高、终端兼容性好的优点。 不涉及 支持
阿里云私有加密 将视频文件按照阿里云私有加密协议进行加密,转成加密的HLS格式,必须使用阿里云播放器进行解密播放,即使将文件下载到本地也无法播放和二次传播。可保障移动端、FLASH端视频安全。具有安全级别高,适用于在线教育,付费观看等场景。 不涉及 支持

视频AI

视频生产

基于阿里云媒体AI技术,提供多种形式的媒体内容处理及内容生成能力,提升媒体内容生产效率和质量。点击在线体验
重要 以下功能需要通过提交智能生产作业使用,按成功处理的视频时长,收取视频生产费用。计费说明,请参见视频生产计费
功能 服务名称 说明
智能封面 Cover 封面图片:选取展现视频内容效果最优的图片,作为视频的图片封面。封面动图:提取视频多帧精彩瞬间,拼接生成GIF动图,作为视频的动图封面。
视频摘要 VideoClip 提取视频精彩内容片段,融合生成最具代表性的5s短视频摘要。
字幕提取 CaptionExtraction 识别视频中的字幕,提取文本内容及时间信息,输出为srt字幕文件,支持中英文字幕识别提取,可用于视频字幕加工场景。
字幕擦除 VideoDetext 采用文字检测及图像融合处理技术,智能检测并去除视频或图像中的文字字幕,还原视频纯净画面。
图标模糊
  • 视频:VideoDelogo
  • 图片:ImageDelogo
识别视频中的logo图标位置,并对图标进行模糊处理,恢复视频未添加logo的原始状态,辅助视频内容的后期制作及再生产。
智能横转竖
  • 视频:VideoH2V
  • 图片:ImageH2V
识别视频画面主体,进行比例适应裁剪,将横屏拍摄的视频转换成适于移动端竖屏播放的视频,助力移动时代视频内容二次生产及多端传播投放。
PPT拆条 VideoSplit 对包含PPT演示的视频进行智能分析,将PPT演示视频拆分成多个时间片段,并自动为每个片段生成标题,用于场景课程类视频自动编辑。
人像抠图 ImageMatting 不涉及
绿幕抠图 VideoGreenScreenMatting 不涉及
人脸风格化 ImageCartoonize 对图片中的人脸进行风格化转换,支持二次元、美漫等风格。
副歌检测 MusicSegmentDetect 对歌曲进行段落分析,识别音乐中的副歌“高潮片段”,提取副歌段落时间信息,可以用于音乐推荐试听,热门片段K歌等场景。
节奏检测 AudioBeatDetection 节奏检测可分析识别音乐中的多层次的节奏点,返回节奏点时间信息,可用于音视频生产、音乐推荐等场景。
智能混音 AudioMixing 对多个输入音频进行音轨平衡处理及智能混音,输出混音合成音频,支持人声、音乐等多种音频处理。
语音合成
  • 同步:TextToSpeech
  • 异步:AsyncTextToSpeech
不涉及
音质检测 不涉及 识别输入音频静音、卡顿等问题。

智能标签

分析媒体文件中的视觉、文字、语音、行为等信息,结合多模态信息融合及对齐技术,实现高准确率内容识别,自动输出多维度、结构化标签。应用于视频搜索、个性化推荐、广告投放等场景。单击在线体验
重要 以下功能需要通过提交智能标签作业使用,按成功处理的视频时长,收取智能标签费用。计费说明,请参见智能标签计费
功能 说明
视频分类 分析视频内容输出视频分类类目。
内容标签识别 分析视频的视觉图像信息,识别人物、物体、场景、等画面内容标签。
OCR文字识别 识别视频图像中的文字,提取图像文本内容。
ASR语音识别 分析视频中的语音信息,提取语音文本内容。
自定义标签 支持自定义人脸、地标、Logo、商品等标签。
可以处理的文件类型和格式如下:
文件参数 视频 音频 图片
文件格式 AVI、FLV、MKV、MPG、MP4、TS、MOV、MXF MP3、WAV JPG、JPEG、PNG
编码格式 MPEG2、MPEG-4、H.264、H.265/HEVC 不涉及 不涉及
文件时长 不超过4小时 不超过4小时 不涉及
文件大小 不超过4 GB 不超过400 MB 不超过4 MB
文件分辨率 240P~2160P,为保证分析效果,建议分辨率不小于720P 不涉及 不超过2160P

智能审核

对媒体文件的标题、简介、封面、视频、音频等内容进行审核,有效识别违规内容。应用于短视频平台、直播平台、传媒审核等场景。单击立即体验

重要 以下功能需要通过提交媒体审核作业使用,按成功处理的视频时长,收取智能审核费用。计费说明,请参见智能审核计费
功能 审核内容 说明
媒体内容审核 涉黄识别 识别语音、文字、画面中的色情和性感内容。
暴恐涉政识别 识别武器、血腥场面、特殊装束、爆炸烟光、特殊标识、聚众、游行等十余个维度的暴恐涉政内容。
广告/二维码识别 识别媒体文件中的文字、水印、二维码,有效识别牛皮癣广告、二维码、小程序码等多种形式的图文广告。
Logo识别 识别视频图片中的各种Logo图标,如台标、商标、水印等,常用于版权保护等场景。
不良场景识别 识别画中画、吸烟、车内直播、无意义画面等需要监管的不良场景。
语音垃圾识别 识别语音中存在的涉黄、暴恐涉政、辱骂等违规信息,支持中文、英文语音识别。

视频DNA

基于阿里云视频指纹技术,通过指纹特征来唯一标记一个视频/音频/图片/文本,提供视频、图像、音频等指纹特征提取、对比功能,可以解决重复视频查找、视频片段查源等问题。单击立即体验

重要 以下功能需要通过提交DNA作业使用,按成功处理的音视频时长,收取视频DNA费用。计费说明,请参见视频DNA计费
功能 说明
视频DNA 提取视频画面指纹,支持入库分析及指纹特征比对,查找库内相似视频。
音频DNA 提取音频指纹,支持入库分析及指纹特征比对,查找库内相似音频。
图片DNA 提取图片画面指纹,支持入库分析及指纹特征比对,查找库内相似图片。
文本DNA 提取文本内容指纹,支持入库分析及指纹特征比对,查找库内相似文本。

数字水印

基于阿里云数字水印技术,支持对视频、图片进行数字信息的嵌入、提取。嵌入的水印信息隐藏于载体文件中,水印嵌入后不影响视频画面、图片的视觉质量及完整性,可用于版权保护、泄露溯源、广播监视、信息传输、文件验真等多种场景。
重要 以下功能需要通过提交视频版权水印/溯源水印作业使用,按成功处理的音视频时长,收取数字水印费用。计费说明,请参见数字水印计费
功能 说明
视频版权水印 支持对视频版权水印嵌入及提取,可用于版权确认、机构版权溯源。
视频溯源水印 支持视频溯源水印嵌入及提取。通过AB流方式,在用户请求视频播放时,实时生成与用户身份唯一对应的溯源水印切片文件,可用于视频点播用户溯源。

服务管理

类别 说明 API相关参数 控制台操作
媒体管理 媒体视频文件上传、管理与发布。 不涉及 不涉及
工作流编排 云端自动化处理工作流,音视频上传完毕后自动执行处理流程。 不涉及 支持
预置模板 媒体处理为适配一定网络带宽范围的输出视频,预设了一系列转码模板:
  • 预置智能模板:会根据输入视频的具体情况而自动调整转码参数以满足输出视频要求。由于输入视频本身有差异(分辨率、码率等),不一定所有的预置智能模板都适合。因此,需要通过模板分析作业来获取指定输入文件的可用预置模板。预置智能模板以质量优先。
  • 预置静态模板:可以直接调用的预置模板,无需进行模板分析。分为视频转码模板、音频MP3转码模板及转封装模板,涵盖常见的播放设备及带宽条件,以码率控制优先。
  • 预置窄带高清TM模板:可以直接调用的预置模板,无需进行模板分析。分为窄带高清TM1.0模板、窄带高清TM2.0模板,包含FLV、MP4、M3U8三种输出格式。窄高模板以码率控制优先。
不涉及 支持
自定义模板 用户根据实际转码需求,自定义设置转码、AI参数(包含音频编码、视频编码、容器等)的自定义模板。 不涉及 支持
转码优先级 设置任务在管道内的转码优先级,最多分为10级。 Priority 不支持
条件转码 支持两种方式:
  • 如果转码模板的码率(或分辨率)比输入视频更高,则不进行该规格的视频转码。
  • 如果转码模板的码率(或分辨率)比输入视频更高,则在进行该规格的转码时,输出码率(或分辨率)等于输入视频码率(或分辨率)。
IsCheckReso、IsCheckResoFail等 支持
消息通知 集成MNS服务,为管道或工作流绑定主题或队列通知,管道内作业异步接口的返回消、工作流开始和结束消息可通过MNS主动推送到用户的消息接收服务。 NotifyConfig 支持
数据统计 查询指定时间段使用的转码、截图、视频审核、视频DNA的用量时长。 不涉及 不涉及