媒体处理可以将一个音视频文件转换成另一个或多个音视频文件,以适应不同网络带宽、终端设备和用户的需求。对媒体的内容、文字、语音、场景进行多模态分析,实现智能审核、内容理解、智能编辑等多种处理功能。
音视频转码
把音视频码流转换为另一种清晰度、编码格式或封装格式,以适应不同网络带宽、不同终端播放设备的使用场景。媒体处理覆盖了主流编码及封装格式,并且支持在转码过程中添加水印、字幕、简单剪辑等处理,详见下文。未在控制台或API展示的功能,请通过商务人员联系技术团队。
以下功能需要提交转码作业使用,按照输出的视频规格和时长,收取普通转码费用。计费说明请参见转码定价。
参数 | 类型 | 说明 |
输入文件 | 封装格式 |
|
视频编码格式 | Apple ProRes、AVS+、AVS、AVS2、H.263、 H.263+、H.264/AVC、H.265/HEVC、H.266/VVC、MJPEG、MPEG-1、MPEG-2、MPEG-4、Quicktime、RealVideo、VP8、VP9、Windows Media Video。 | |
音频编码格式 | AAC、AC3、ADPCM、AMR、DSD、EAC3、MP1、MP2、MP3、PCM、RealAudio、Vorbis、Windows Media Audio。 | |
文件大小 | 最大100 GB。 | |
色彩空间 | 4:2:2、4:2:0等。 | |
输出文件 | 封装格式 | 说明
|
编码格式 |
| |
编码级别 |
| |
分辨率 |
| |
码率 |
| |
帧率 | 输出帧率范围为(0,60],单位为fps。 | |
采样位深 |
| |
颜色格式 | yuv420p,yuvj420p,yuv422p,yuvj422p,yuv444p,yuvj444等。 | |
码率控制 | VBR、CBR、ABR、CRF。 | |
扫描模式 | 支持原视频模式、自动去隔行、交叉扫描、顺序扫描。 |
窄带高清TM
窄带高清TM是一项基于阿里云转码技术的媒体处理功能,通过提高视频压缩率、减小文件体积,从而减少播放卡顿并节省存储和流量费用。
以下功能需要在提交转码作业时选择对应窄带高清转码模板使用,按照输出的视频规格和时长,收取窄带高清转码费用。计费说明请参见转码定价。
类型 | 说明 |
窄带高清TM1.0 | 针对视频画面场景、动作、内容、纹理等细节进行智能分析,实现在同等画质下平均节约20~40%码率、在同等带宽下更高清的观看体验。支持H.264、H.265编码,其他参数同普通转码。单击在线体验。 |
窄带高清TM2.0 | 突破视频编码器能力上限并融入轻量画质修复与增强能力,实现在同等画质下平均节约40%~60%码率、在低带宽下更高清优质的观看体验。支持H.264、H.265编码,其他参数同普通转码。单击在线体验 |
音视频增强
音频增强
视频云音频实验室有机结合传统信号处理与深度学习技术,提供全场景音频增强与修复方案。单击在线体验。
功能 | 说明 |
杜比音效 |
|
全景声 | 全景声空间音频技术,提供更加沉浸、真实的体验。 |
虚拟环绕声 | 支持将5.1/7.1多声道音频转码为双声道音频,并保留多声道环绕效果,实现在非家庭影院设备上播放(如使用手机、平板、耳机、电视)也可体验到高质量音源的环绕声效果。 |
音效增强 | 支持对单/双/5.1/7.1多声道音频进行效果增强,针对耳机、外放等不同播放环境,提供影视级品质、自然、清晰、可定制的音效氛围,适用于音乐、演讲、影视内容场景。 |
音量归一 | 智能调节视频响度,进行归一化处理。解决短视频、音乐连播场景下,因内容源音量参差不齐,带来音量忽大忽小的问题。 |
视频增强
以下功能需要在提交转码作业时选择对应视频增强转码模板使用,按照输出视频的规格、帧数收取转码费用。计费说明请参见音视频增强费用。如需开启视频增强转码模板,请搜索钉钉群32171220入群联系阿里云技术人员配置。
从视频清晰度、色彩、流畅性等维度进行全面提升,实现4K/8K超高清生产、标清转高清、互联网UGC内容优化、老旧视频修复等典型媒体处理诉求。最终通过更高品质的视听内容提升用户体验,带来客户转化与观看时长的提升。单击在线体验。
功能 | 说明 |
超分 | 采用超分辨率技术,在还原更多画面细节的同时修复模糊、噪声等轻微损伤,同时针对人像区域进行重点还原。可将低清晰度的视频生成720p或1080p的高清版本,将高清影片生成高品质的2K或4K节目源。 |
插帧 | 采用智能分析+动态补偿技术,针对画面运动的不同而采用智能插帧策略。实现最高120fps的无级插帧,解决由帧率带来的平移卡顿、画面抖动等问题。 |
视频修复 | 对视频在采集、压缩、物理放映等环节导致的严重损伤问题,如压缩噪声、块效应、划痕、霉斑等进行智能修复,同时保持帧间稳定性与细节还原性。 |
HDR |
|
SDR+ | SDR色彩增强技术,在SDR色域下结合场景与内容分析,对视频曝光、对比度、饱和度、白平衡等维度进行智能优化,在实现更优主观体验的同时保持色彩的稳定、统一。 |
倍速转码
将视频源切分为多个较小的片段后并行转码,可将转码速度提升5~30倍,显著缩短处理耗时,适用于对首发、时效性要求较高的资讯、赛事、重要内容场景。
通过提交转码作业并启用倍速管道为转码任务提速。除收取原本音视频转码或音视频增强费用外,会按输出的视频规格、时长和实际倍速,额外收取倍速费用。详细计费说明,请参见倍速转码。
类型 | 说明 |
加速倍数 | 根据输入视频情况,一般可达到5~30倍。支持在倍速管道上设置预期倍速,如5倍速、10倍速、20倍速、30倍速等。 |
适用视频 | 推荐30分钟以上的长视频,或对高帧率、超高清、音画增强等复杂处理的视频采用倍速转码。详细说明,请参见倍速转码使用限制。 |
倍速策略 | 并非所有视频都支持切片,投递到倍速管道中但不支持倍速的视频,会默认退避到非倍速模式转码。 |
更多处理
媒体信息
获取存储于OSS上的音视频文件信息,包括分辨率、码率、帧率、编码格式、文件格式等关键信息。
该功能需要通过提交媒体信息作业使用,按请求次数,收取功能接口请求费用。计费说明,请参见功能接口请求定价。
简单剪辑
对视频进行提取音频、提取视频、拼接、剪辑、混音等简单的二次创作。
以下功能需要通过提交转码作业时设置相应参数使用,按输出的视频规格和时长,收取转码费用。计费说明,请参见转码定价。
功能 | 说明 | API相关参数 | 控制台操作 |
提取音频 | 从视频文件中单独分离出音频,即禁用视频。 | Remove | 支持 |
提取视频 | 从视频文件中单独分离出视频,即禁用音频。 | Remove | 支持 |
视频去黑边 | 检测视频画面中的黑边,并自动剪裁。 | Crop | 不支持 |
视频剪裁 | 指定输入视频画面经过剪裁后保留的宽度和高度,以及该保留画面与输入画面左边、上边的相对距离,两个画面的间隙自动剪裁。 | Crop | 不支持 |
视频贴黑边 | 指定输入视频画面经过贴黑边后输出的宽度和高度,以及输入画面与输出画面左边、上边的相对位置,两个画面的间隙使用黑边填充。 | Pad | 不支持 |
横竖屏自适应 | 开启后,输出分辨率由宽度、高度,变为长边、短边参数。当您的输入视频同时包含横屏、竖屏时建议开启该参数。 | LongShortMode | 支持 |
视频旋转 | 设置视频旋转角度。 | Rotate | 支持 |
视频拼接 | 将最多100个视频进行拼接,可设置每个被拼接视频的开始、持续时间。 | MergeList或MergeConfigUrl | 不支持 |
视频剪辑 |
| Clip | 支持 |
开场和关板 | 在视频开头叠加动态Logo,并指定片尾内容。增加产品识别度,突出版权。 | OpeningList和TailSlateList | 支持添加片尾 |
模糊处理 | 对视频内的指定区域进行模糊处理。 | DeWatermark | 不支持 |
混音 | 实现两音轨合并,适用于增加背景音乐场景。 | Amix | 不支持 |
视频截图
对视频截取指定时间、指定尺寸的图片,用于生产视频封面、雪碧图、播放器进度条缩略图。
以下功能需要通过提交截图作业使用,按截图张数,收取功能接口请求费用。计费说明,请参见功能接口请求定价。
功能 | 说明 | API相关参数 | 控制台操作 |
静态截图 | 对视频截取指定时间、指定尺寸的JPG图片。提供以下几种采样方式:
| SnapshotConfig | 支持 |
雪碧截图 | 设置后,对截取的一系列静态图片,会按照指定的排列规则拼成一张大图,这张大图即为雪碧图。格式为JPG。仅支持异步调用。通过一次请求雪碧图可获取多张图片的信息,实现大幅降低图片请求数量,提高客户端性能。 | TileOut、TileOutputFile | 不支持 |
WebVTT截图 | 设置后,对截取的一系列静态图片或雪碧图,会生成VTT文件,文件包含截图时间、截图文件地址、雪碧图坐标信息。在使用图片时需要先获取VTT文件,解析图片的信息进行展示。可用于播放器进度条缩略图展示。 | SubOut | 支持 |
关键帧截图 | 设置后,只截取关键帧。如对应指定时间点为非关键帧,则就近选取关键帧。 | FrameType | 支持 |
首帧黑屏检测 | 对于首帧图片(time=0)可以使用黑屏检测。通过设置黑色像素的画面比例和颜色值定义黑屏。截图时会检测视频的前5秒,如果有非黑屏图片,则截取非黑屏图片;否则,单图任务返回失败,多图任务截取第一帧黑屏图片。 | BlackLevel、PixelBlackThreshold | 支持 |
视频水印(明水印)
在视频中添加可见的明水印(例如,企业Logo、电视台台标),突出品牌和版权,增加产品识别度。为视频添加不可见的盲水印用于版权追溯,详细说明请参见下文数字水印(暗水印)说明。
功能 | 说明 | API相关参数 | 控制台操作 |
图片水印 |
| WaterMarks | |
文字水印 | WaterMarks | 不支持 |
添加字幕
在视频中添加字幕,在多语言片源、或视频静音或环境嘈杂的场景、或令听障人士也能无障碍的理解和欣赏视频。
以下功能需要通过提交转码作业或配置工作流发起转码使用,按输出的视频规格和时长,收取转码费用。计费说明,请参见音视频转码费用。
功能 | 说明 | API相关参数 | 控制台操作 |
硬字幕 | 将字幕文件烧制到视频画面中,即把画面的一部分像素替换为字幕内容。字幕格式支持SRT、ASS格式,可设置字幕字体。硬字幕不依赖播放器,在所有场景下都可以播放显示。 | SubtitleConfig | 不支持 |
打包字幕 | 通过工作流打包将字幕文件与音视频流打包到同一个Master Playlist(m3u8或mpd文件)中,一个Master Playlis最多添加4路字幕,可以实现在播放器中切换多版本字幕的能力。字幕格式:HLS打包支持VTT,DASH打包支持VTT、STL、TTML。 |
| 支持 |
视频打包
打包是指将多码率、多音轨、多字幕、多音轨生成一个Master Playlist文件的过程。在流媒体播放场景下,可以实现:
自适应码流:根据网络情况自适应码流,可以解决起播慢、播放卡顿问题。
广告植入:在两个分片之间灵活插入视频广告。
以下功能需要通过配置工作流发起转码使用,按输出的视频规格、时长,收取转码费用。计费说明,请参见音视频转码费用。
功能 | 说明 | API相关参数 | 控制台操作 |
HLS协议 | 使用Apple HLS协议进行打包,支持二级索引,索引文件格式为m3u8,视频文件格式为ts。 | 支持 | |
DASH协议 | 使用DASH ISO协议进行打包,支持一级索引,索引文件格式为mpd,视频文件格式为fmp4。 | 不支持 | |
CMAF协议 | 用CMAF协议进行打包,支持输出HLS或DASH格式。 | 暂无 | 不支持 |
自定义分片时长 | 指定最多10个分片时间点,和其余时长的分片间隔。范围1至60秒。有助于用户根据播放端带宽条件来设定切片时长,降低用户首屏加载时间。 | Segment | 不支持 |
视频加密
以下功能需要通过配置工作流发起转码使用,按输出的视频规格、时长,收取转码费用。计费说明,请参见音视频转码费用。
功能 | 说明 | API相关参数 | 控制台操作 |
HLS标准加密 | 将视频内容按照HLS AES-128标准协议进行加密,密钥支持自建或使用KMS服务,在HLS规定的播放器上均可解密播放。可保障移动端视频安全。具有安全级别较高、终端兼容性好的优点。 | 不涉及 | 支持 |
阿里云私有加密 | 将视频文件按照阿里云私有加密协议进行加密,转成加密的HLS格式,密钥必须使用KMS服务,播放必须使用阿里云播放器进行解密播放,即使将文件下载到本地也无法播放和二次传播。可保障移动端、FLASH端视频安全。具有安全级别高,适用于在线教育,付费观看等场景。 | 不涉及 | 支持 |
视频AI
智能生产
基于阿里云媒体AI技术,提供多种形式的媒体内容处理及内容生成能力,提升媒体内容生产效率和质量。单击在线体验。
以下功能需要通过提交智能生产作业使用,按成功处理的视频时长,收取智能生产费用。计费说明,请参见智能生产计费。
处理类型 | 功能 | 服务名称 | 说明 |
音频类处理 | 副歌检测 | MusicSegmentDetect | 对歌曲进行段落分析,识别音乐中的副歌“高潮片段”,提取副歌段落时间信息,可以用于音乐推荐试听,热门片段K歌等场景。 |
节奏检测 | AudioBeatDetection | 节奏检测可分析识别音乐中的多层次的节奏点,返回节奏点时间信息,可用于音视频生产、音乐推荐等场景。 | |
智能混音 | AudioMixing | 对多个输入音频进行音轨平衡处理及智能混音,输出混音合成音频,支持人声、音乐等多种音频处理。 | |
音质检测 | AudioQualityAssessment | 识别输入音频静音、卡顿等问题。 | |
智能降噪 | SpeechDenoise | 纯净人声在现实生活中会受到各种噪声干扰,使用智能降噪插件可以将噪声滤除并保持极高的语音保真度,从而提升语音质量和可懂度,为在线会议、在线教育等实时通信场景提供卓越的语音体验。 | |
声伴分离 | MusicDemix | 识别音频中的人声和伴奏,快速分离成两个独立的音频文件。适用于卡拉ok的清唱、伴奏提取,任意音频的背景音提取,满足音频素材获取、后期制作、声音剪辑等需求。 | |
视频类处理 | 智能封面 | Cover | 封面图片:选取展现视频内容效果最优的图片,作为视频的图片封面。 封面动图:提取视频多帧精彩瞬间,拼接生成GIF动图,作为视频的动图封面。 |
视频摘要 | VideoClip | 提取视频精彩内容片段,融合生成最具代表性的5s短视频摘要。 | |
字幕提取 | CaptionExtraction | 识别视频中的字幕,提取文本内容及时间信息,输出为srt字幕文件,支持中英文字幕识别提取,可用于视频字幕加工场景。 | |
字幕擦除 | VideoDetext | 采用文字检测及图像融合处理技术,智能检测并去除视频或图像中的文字字幕,还原视频纯净画面。 | |
图标模糊 | VideoDelogo | 识别视频中的logo图标位置,并对图标进行模糊处理,恢复视频未添加logo的原始状态,辅助视频内容的后期制作及再生产。 | |
视频横转竖 | VideoH2V | 识别视频画面主体,进行比例适应裁剪,将横屏拍摄的视频转换成适于移动端竖屏播放的视频,助力移动时代视频内容二次生产及多端传播投放。 | |
绿幕抠图 | VideoGreenScreenMatting | 绿幕抠图对视频图像的画面前景背景进行分析提取,检测纯色背景并替换为指定的背景图,适用于影视制作、短视频制作及后期编辑场景。 | |
视频美颜 | FaceBeauty | 基于智能视觉算法、人脸检测识别技术,提供视频文件的人脸美颜功能,支持自动检测并对人像进行磨皮、美白、红润等美颜处理,各项美颜参数可进行单独设置,适用于短视频制作、视频后期处理等场景。 | |
图片类处理 | 图标模糊 | ImageDelogo | 识别图片中的logo图标位置,并对图标进行模糊处理,恢复图片未添加logo的原始态。 |
图片横转竖 | ImageH2V | 识别图片画面主体,进行比例适应裁剪,将横屏图片转换成适于移动端竖屏浏览的图片。 | |
人脸风格化 | ImageCartoonize | 对图片中的人脸进行风格化转换,支持二次元、美漫等风格。 |
智能标签
分析媒体文件中的视觉、文字、语音、行为等信息,结合多模态信息融合及对齐技术,实现高准确率内容识别,自动输出多维度、结构化标签。应用于视频搜索、个性化推荐、广告投放等场景。单击在线体验。
以下功能需要通过提交智能标签作业使用,按成功处理的视频时长,收取智能标签费用。计费说明,请参见智能标签计费。
功能 | 说明 |
视频分类 | 分析视频内容输出视频分类类目。 |
内容标签识别 | 分析视频的视觉图像信息,识别人物、物体、场景、等画面内容标签。 |
视频文字识别标签OCR | 识别视频图像中的文字,提取图像文本内容。 |
视频语音识别标签ASR | 分析视频中的语音信息,提取语音文本内容。 |
自定义标签 | 支持自定义人脸、地标、Logo、商品等标签。 |
智能标签输入文件限制如下:
文件参数 | 视频 | 音频 | 图片 |
封装格式 | AVI、FLV、MKV、MPG、MP4、TS、MOV、MXF | MP3、WAV | JPG、JPEG、PNG |
编码格式 | MPEG2、MPEG-4、H.264/AVC、H.265/HEVC | 不涉及 | 不涉及 |
文件时长 | 不超过4小时 | 不超过4小时 | 不涉及 |
文件大小 | 不超过4 GB | 不超过400 MB | 不超过4 MB |
文件分辨率 | 240P~2160P,为保证分析效果,建议分辨率不小于720P | 不涉及 | 不超过2160P |
智能审核
对媒体文件的标题、简介、封面、视频、音频等内容进行审核,有效识别违规内容。应用于短视频平台、直播平台、传媒审核等场景。单击立即体验。
以下功能需要通过提交媒体审核作业使用,按成功处理的视频时长,收取智能审核费用。计费说明,请参见视频AI费用。
功能 | 审核内容 | 说明 |
媒体内容审核 | 涉黄识别 | 识别语音、文字、画面中的色情和性感内容。 |
暴恐涉政识别 | 识别武器、血腥场面、特殊装束、爆炸烟光、特殊标识、聚众、游行等十余个维度的暴恐涉政内容。 | |
广告/二维码识别 | 识别媒体文件中的文字、水印、二维码,有效识别牛皮癣广告、二维码、小程序码等多种形式的图文广告。 | |
Logo识别 | 识别视频图片中的各种Logo图标,如台标、商标、水印等,常用于版权保护等场景。 | |
不良场景识别 | 识别画中画、吸烟、车内直播、无意义画面等需要监管的不良场景。 | |
语音垃圾识别 | 识别语音中存在的涉黄、暴恐涉政、辱骂等违规信息,支持中文、英文语音识别。 |
视频DNA
基于阿里云视频指纹技术,通过指纹特征来唯一标记一个视频/音频/图片/文本,提供视频、图像、音频等指纹特征提取、对比功能,可以解决重复视频查找、视频片段查源等问题。单击立即体验。
以下功能需要通过提交DNA作业使用,按成功处理的音视频时长,收取视频DNA费用。计费说明,请参见视频DNA计费。
功能 | 说明 |
视频DNA | 提取视频画面指纹,支持入库分析及指纹特征比对,查找库内相似视频。 |
音频DNA | 提取音频指纹,支持入库分析及指纹特征比对,查找库内相似音频。 |
图片DNA | 提取图片画面指纹,支持入库分析及指纹特征比对,查找库内相似图片。 |
文本DNA | 提取文本内容指纹,支持入库分析及指纹特征比对,查找库内相似文本。 |
数字水印(暗水印)
基于阿里云数字水印技术,支持对视频进行数字信息的嵌入、提取。嵌入的水印信息隐藏于载体文件中,水印嵌入后不影响视频画面、图片的视觉质量及完整性,可用于版权保护、泄露溯源、广播监视、信息传输、文件验真等多种场景。详细说明,请参见数字水印(暗水印)。
以下功能需要通过提交视频版权水印/溯源水印作业使用,按成功处理的音视频时长,收取数字水印费用。计费说明,请参见数字水印计费。
功能 | 说明 | 相关API | 控制台操作 |
视频版权水印 | 为视频(仅支持3分钟及以上的视频 )嵌入不可见的指定文字信息,嵌入的数字水印隐藏于媒体文件中,不影响视频的视觉质量及完整性。当视频被传播、加工后,依然可以提取识别嵌入的文字信息。 | 不支持 | |
视频溯源水印 | 为视频(仅支持3分钟及以上的视频)转码输出A流和B流两个HLS文件,两路流被嵌入的溯源水印内容不同。用户请求播放时,随机选择AB流的分片及逆行组合,实时生成与用户身份唯一对应的溯源水印M3U8文件。当发生视频盗版时,只要检测其中的水印信息就可以追踪到泄露视频的用户,盗版权责追溯。 | 不支持 |
服务管理
类别 | 说明 | API相关参数 | 控制台操作 |
媒体管理 | 媒体视频文件上传、管理与发布。 | 不涉及 | 不涉及 |
工作流编排 | 云端自动化处理工作流,音视频上传完毕后自动执行处理流程。 | 不涉及 | 支持 |
转码模板 | 转码模板是一系列转码参数的集合,在创建转码任务或使用工作流时,可以使用转码模板简化操作。按创建来源分为自定义模板、定制模板、系统预置模板。 | TemplateId | 支持 |
水印模板 | 水印模板是一系列包含水印位置、大小的参数,使用水印模板,可以帮助您简化开发操作。 | WaterMarkTemplateId | 支持 |
转码优先级 | 设置任务在管道内的转码优先级,最多分为10级。 | Priority | 不支持 |
条件转码 | 对比原视频的视频码率、视频分辨率、音频码率是否小于指定输出设置,如果小于则按原画或不转码。 | IsCheckReso、IsCheckResoFail等 | 支持 |
管道队列 | 媒体处理转码、异步截图等作业为异步处理,需要加入管道中被调度执行。支持创建多个任务管道,并设置任务在管道内的转码优先级,最多分为10级。 | Priority | 不支持 |
消息通知 | 媒体处理转码、异步截图等作业为异步处理。通过集成MNS服务,为管道或工作流绑定主题或队列通知,当任务完成、工作流开始和结束时会通过MNS主动推送给用户。 | NotifyConfig | 支持 |
数据统计 | 查询指定时间段使用的转码、截图、视频审核、视频DNA的用量时长。 | 不涉及 | 不涉及 |