全部产品
阿里云办公

产品功能

更新时间:2018-08-10 17:47:17

媒体处理,将一个音视频文件转换成另一个或多个音视频文件,以适应不同网络带宽、不同终端设备和不同的用户需求。同时基于海量数据深度学习,对媒体的内容、文字、语音、场景多模态分析,实现智能审核、内容理解、智能编辑。

您可以使用媒体处理解决哪些问题?
  • 适配终端设备:转换媒体格式,支持PC、TV以及移动终端等多平台播放;

  • 适配网络环境:把视频转码为标清、高清、超高清等多个清晰度,以便不同网络带宽的用户选择最佳码率,流畅播放;

  • 添加水印:在视频中添加水印(例如,企业logo、电视台台标、用户昵称),突出品牌和版权,增加产品识别度;

  • 截图:截取指定时间点的画面,用做视频封面或生成雪碧图;

  • 视频编辑:对视频进行剪辑、拼接等二次创作;

  • 画质修复:针对画质较差的视频,去除画面中的毛刺、马赛克等,修复为高清晰版本;

  • 降低存储、分发成本: 保证在相同画质质量的前提下,调整视频码率、提高视频压缩率、减小文件体积,从而减少播放卡顿并节省存储和流量费用;

  • 视频去重、原创识别:提取视频中的图像、音频等指纹特征,生成视频指纹,实现重复视频查找、视频片段查源等功能,适用于视频去重、侵权视频过滤、原创识别、视频溯源等场景;

  • 智能审核:智能审核:智能识别视频内语音、文字、画面的色情、暴恐涉政、广告、不良画面等内容,大幅节省人工审核人力成本,降低违规风险;

  • 提升转化:通过对视频内容理解,结合画面美学和海量用户行为数据,选出最优关键帧,生成图片、动图或短视频,可用做视频封面,提升视频点击转化。

转码

封装格式

参数 说明
输入格式 容器格式:3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MKV、MOV、TS、WebM、MXF
视频编码格式:H.264/AVC、H.263、 H.263+、MPEG-1、MPEG-2、MPEG-4、MJPEG、VP8、VP9、Quicktime、RealVideo、Windows Media Video
音频编码格式:AAC、AC-3、ADPCM、AMR、DSD、MP1、MP2、MP3、PCM、RealAudio、Windows Media Audio
输出格式 容器格式:
- 视频:FLV、MP4、HLS(m3u8+ts)、MPEG-DASH(MPD+fMP4)
- 音频:MP3、MP4、OGG、FLAC、m4a
- 图片:GIF、WEBP
视频编码格式:H.264/AVC、 H.265/HEVC
音频编码格式:MP3、AAC、VORBIS、FLAC
音频提取 从视频文件中单独分离出音频,即禁用视频
视频提取 从视频文件中单独分离出视频,即禁用音频
转封装 不改变视频的编码方式,仅改变封装格式。支持音视频转封装为MP4、M3U8、FLV三种格式
视频转动图 对视频的精彩片段截取动图(GIF/WEBP格式)用于展示

视频编码参数

参数 说明
Codec 编解码格式。支持H.264、H.265、GIF、WEBP,默认值:H.264
Bitrate 码率。支持输出码率范围:[10,50000],单位:Kbps
Fps 帧率。默认值取输入文件帧率,当输入文件帧率超过60时取60,取值范围:(0,60],单位:fps
Width* Height 分辨率。宽:默认值是视频原始宽度,取值范围:[128,4096],单位:px
高:默认值是视频原始高度,取值范围:[128,4096],单位:px
Scale 自动缩放。支持按照宽度等比例缩放
支持按照高度等比例缩放
Gop 关键帧间最大时间间隔或者最大帧数。最大时间间隔时,必传单位,单位:s,默认值:10s
最大帧数时,无单位,取值范围:[1,100000]
Profile 编码级别。H.264:支持Baseline、Main、High三种编码级别
PixFmt 视频颜色格式。yuv420p、yuvj420p等标准颜色格式,默认值:yuv420p或原始颜色格式
Rotate 视频旋转角度 。把视频画面顺时针旋转,取值范围:[0,360),默认值:0

视频处理参数

参数 说明
ScanMode 扫描模式。支持interlaced、progressive
Rate Control Modes 码率控制方法。支持如下几种码率控制方法:VBR、CBR、CRF
Crop 视频画面裁切。支持自动检测黑边并裁切,支持自定义裁切参数
Pad 视频贴黑边。支持

音频编码参数

参数 说明
Codec 编解码格式。音频编解码格式,AAC、MP3、VORBIS、FLAC,默认值:AAC
Samplerate 采样率。默认值:44100,支持22050、32000、44100、48000、96000,单位:Hz
若视频容器格式为FLV,音频编解码格式选择为MP3时,采样率不支持32000、48000、96000
若音频编解码格式为MP3时,采样率不支持96000
Bitrate 音频码率。默认值:128,码率范围:[8,1000],单位:Kbps
Channels 声道数。默认值:2;
当Codec设置为 MP3 时,声道数只支持1、2
当Codec设置为 AAC 时,声道数只支持1、2、4、5、6、8

转码控制

类别 说明
HLS MasterPlayList 将多字幕、多音轨、多码率视频流生成一个Master Playlist文件
条件转码 支持两种方式:
如果转码模板的码率(或分辨率)比输入视频更高,则不进行该规格的视频转码
如果转码模板的码率(或分辨率)比输入视频更高,则在进行该规格的转码时,输出码率(或分辨率)等于输入视频码率(或分辨率)
工作流 云端自动化处理工作流,音视频上传完毕后自动执行处理流程

视频安全

类别 说明
私有加密 将视频文件转成加密的HLS格式,通过阿里云播放器进行解密播放,保障移动端、FLASH端视频安全。安全级别高,适用于在线教育,付费观看等场景
标准加密 将视频内容按照HLS AES-128标准协议进行加密,支持HLS规定的播放器均可播放、保障移动端视频安全。安全级别较高,终端兼容性好。

转码模板

预置模板

媒体处理服务为适配一定网络带宽范围的输出视频预设了一系列转码模版:

  • 预置智能模版

    会根据输入视频的具体情况而自动调整转码参数以满足输出视频要求。由于输入视频本身有差异(分辨率、码率等),不一定所有的预置智能模板都适合。因此,需要通过模版分析作业来获取指定输入文件的可用预置模版。多媒体文件的转码,实际是在尽可能压缩文件大小(即降低码率)与尽可能减少文件质量损失之间的平衡,预置智能模版以质量优先。

  • 预置静态模版

    可以直接调用的预置模版,无需进行模版分析。它分为三类:视频转码模版、音频MP3转码模版及转封装模版,涵盖常见的播放设备及带宽条件,以码率控制优先。

  • 预置窄带高清TM模版

    可以直接调用的预置模版,无需进行模版分析。提供FLV、MP4、M3U8三种输出格式的视频转码模版。预置窄带高清TM模版是阿里云媒体处理独设的一组转码模板,相比普通转码模板,在相同的清晰度下,能带来更低的码率,帮助您节约更多的成本。

自定义模板

由用户自行定义转码参数的转码模版,它是转码参数(音频、视频、容器等)的集合,可以满足用户个性化的转码需求。

编辑

类别 说明
视频剪辑 支持指定时间点开始,截取指定时长的媒体剪辑
视频拼接 最多支持20个视频拼接
模糊处理 支持对视频指定区域进行模糊处理
开场和关板 在视频开头,叠加动态logo,并指定片尾内容。增加产品识别度,突出版权

水印

类别 说明
静态水印 支持在输出的视频上覆盖最多20个水印,支持PNG、文字、mov、apng格式
动态水印 支持指定水印的显示时间

截图

类别 说明
视频截图 对存储于OSS上的视频文件截取指定时间的JPG格式图像,支持单张截图、多张截图、平均截图
雪碧图/webvtt缩略图 截取一系列图片生成雪碧图,通过一次请求获取多张图片的信息,大幅降低图片请求数量,提高客户端性能
智能首图 通过对视频内容的理解并结合画面美学,选出最优的关键帧作为视频封面图

窄带高清TM

类别 说明
窄带高清TM1.0 基于阿里云独家转码技术,对视频中每个场景、动作、内容、纹理等进行智能分析,保证相同视频画质下,码率更低,在一定程度上降低带宽成本。
窄带高清TM2.0 从人眼视觉模型出发,将编码器的优化目标从经典的“保真度最高”调整为“主观体验最好”。凭借独有的算法,突破当代视频编码器的能力上限,在节省码率的同时,也能提供更加清晰的观看体验。

画质重生

类别 说明
高帧率视频重制 (FRC) 对于30帧/秒以内的普通帧率高清节目,生成60帧/秒甚至120帧/秒的高帧率版本,4K大屏播放也无顿挫感
片源修复 (PicRescue) 对于被过度压缩的网络视频,去除画面中的毛刺和马赛克,生成更高清晰度的修复重制版
标清转高清重制服务(SD转HD) 对于标清的经典老片,去除胶片颗粒和压缩噪声,加以超分辨率技术,生成720p甚至1080p的高清版本
2K转4K重制服务(2K转4K) 对于1080p影片,利用基于海量视频训练的超分辨率技术,生成独家高品质4K节目源

倍速转码

适用于30分钟以上的长视频,通过对视频分片并行转码,大幅提升转码速度,转码速度可提升5倍。

视频AI

类别 说明
智能审核 基于海量标注数据和深度学习算法实现,从语音、文字、视觉等多维度精准识别视频、封面、标题或评论的违禁内容,包括色情、暴恐、政治敏感、广告、视频黑库等多个功能模块,应用于短视频平台、直播平台、传媒审核等场景。
视频内容理解 通过分析视频中视觉、人物、文字、语音、行为等多模态信息,自动输出视频的多维度内容标签。 包含视频分类、标签识别、人脸识别、文字识别、语音识别等。应用于视频搜索、个性化推荐、广告投放等场景。
智能封面 通过对视频内容的理解,结合画面美学和海量用户行为数据,选出最优关键帧,生成封面图(PNG)、动图(GIF)、短视频(5s左右)。可作为视频封面,提升视频点击转化及用户体验。
视频DNA 提取视频中的图像、音频等指纹特征,通过高维引擎索引,实现海量视频指纹的高效比对。可应用于视频去重、版权保护、原创视频认证等业务领域。

更多功能

类别 说明
媒体信息 支持获取存储于OSS上的音、视频文件的编码和内容信息
M3U8输出自定义切片时长 支持自定义设置M3U8切片时长,范围从1秒至60秒;有助于用户根据播放端带宽条件来设定切片时长,降低用户首屏加载时间
外挂字幕 转码支持导入外部字幕文件并指定字幕编码格式
消息通知集成 集成MNS服务。为管道设定消息通知属性,管道内转码作业异步接口的返回消息可通过消息通知服务主动推送到用户的消息接收服务。
播放 提供Web播放器,支持Flash、HTML5及自适应模式。
提供移动端播放器SDK,支持iOS、Android
本文导读目录