实时音视频简介

传统直播以单向内容传播为主,观众参与度和商业转换效率低。阿里云实时音视频(ApsaraVideo Real-time Communication)在传统直播基础上加入了更多互动元素,如语音聊天 、视频连麦、游戏互动等,让观众不仅是观看者,也是参与者,增强平台用户之间的连接。本文介绍了实时音视频的产品架构、应用场景、功能特性等相关内容。

产品架构

image

角色

功能

第三方内容审核平台

音频流可对接阿里云内容安全审核,或对接第三方平台。

媒体中心

提供录制、审核、混流、转码等多样媒体处理能力。

麦上用户

麦上用户 , 麦上支持最多50人同时聊天, 需要加入房间组件。

GRTN网络

阿里云全球实时通信网络,承载了阿里云的直播、点播、WebRTC、信令等传输。

普通麦下观众

麦下用户,和麦上用户享有相同的延时,需要加入房间组件。

CDN直播观众

用户的音视频流通过旁路转推至阿里云直播, 观众通过rts/flv/rtmp/hls拉流,不限制并发人数 ,无需加入房间组件。

房间管理组件

托管型频道组件,为客户提供虚拟频道管理,简化开发流程。

应用场景

直播连麦

支持在直播场景快速扩展主播与观众连麦、 主播间PK互动、 多人连麦互动的玩法。 实现端到端300ms内的延时、观众上下麦平衡切换关键能力, 同时可以和阿里云标准直播和超低延时直播实现无缝联动,支持直播间观众10万+并发观看。

image..png

社交语聊

支持50人同时上麦,端到端延时300ms内,上麦下麦平衡切换,提供变声、混响、美声等多元有趣的声音玩法。为了保障语音内容的合规性,阿里云提供无缝对接阿里云内容审核、对接第三方审核等配套能力,帮助开发者快速完成方案上线。

image

AI实时互动

AI实时互动是一种旨在帮助企业快速构建AI与用户之间的音视频通话应用的解决方案。用户只需通过白屏化的界面操作,即可在10分钟内构建一个专属的AI智能体,并通过视频云通讯网络与终端用户进行实时交互。更多详情,请前往AI实时互动

image

功能特性

功能

说明

视频互动

支持480P、720P、1080P等分辨率的多人视频互动,端到端延时300ms内,可以被用于直播间主播与观众连麦、主播跨房间PK等多种应用场景。

语音互动

支持48KHz高音质语音互动,端到端延时300ms内,可以被用于语聊房、电台房、客服等多样场景。

混流转推

支持将多路流按照一定规则进行混流,并支持转推至阿里云直播或第三方。

CDN直播联动

无缝联动标准直播、超低延时直播,实现麦下10万+用户并发观看。

云端录制

支持将音视频流录制至OSS或VOD。

云端转码

支持云端转码 。

混响/变声

  • 混响:支持走廊、教堂、录音棚、地下室、音乐厅等多种混响效果。

  • 变声:支持电音、老人、大叔、萝莉等多种变声效果。

智能降噪

在高保真还原人声前提下,智能消除周边噪音、抑制突发噪音、消除多设备啸叫。

耳返

支持低延时耳返服务。

视频美颜

提供多种版本的美颜特效。

语音审核

支持无缝对接阿里云语音审核,或手动对接第三方审核。

视频审核

支持无缝对接阿里云视频审核,或手动对接第三方审核。

核心优势

  • 多网合一:依托阿里云GRTN品牌网络,全球覆盖3200+节点,并实现直播网络、WebRTC网络100%的资源复用 , 实现全球高可靠服务、端到端延时300ms内。

  • 丰富媒体处理能力:提供丰富的媒体处理能力,涵盖录制、混流、转码、审核等。

  • 易于接入:提供完善的接入最佳实践。