CEN构建云上跨地域网络
概述
本文简介
本章卓越架构设计重点介绍当云上不同地域间的VPC、VBR、云服务等要互通访问时(云上多地域业务数据同步/协同互通、异地多活、异地容灾),使用转发路由器TR进行互联并配置跨地域互通带宽,构建企业云上多个地域间的互联互通。
本文面向技术人员,例如CTO、架构师、开发人员和运营团队成员等,介绍基于TR构建云上跨地域网络的方案和方法,参考本文结合客户现有业务进行云上跨地域网络的规划设计。
基本概念
VPC:专有网络VPC(Virtual Private Cloud)是用户基于阿里云创建的自定义私有网络, 不同的专有网络之间二层逻辑隔离,用户可以在自己创建的专有网络内创建和管理云产品实例,比如ECS、SLB、RDS等。
高速通道:高速通道(Express Connect)是一款连接企业数据中心与阿里云的网络服务,可在企业数据中心与云上网络之间建立高速、稳定、安全的私网通信通道。高速通道的数据传输过程可信可控,能有效提高网络通信的质量及安全性。
VBR:阿里云基于软件自定义网络SDN架构下的三层Overlay技术和交换机虚拟化技术,将物理专线的接入端口隔离起来,并抽象成边界路由器VBR(Virtual border router)。VBR是CPE设备和专有网络VPC之间的一个路由器,作为数据从VPC到本地数据中心IDC的转发桥梁。
云企业网:云企业网CEN(Cloud Enterprise Network)是运行在阿里云私有全球网络上的一张高可用网络。云企业网通过转发路由器TR(Transit Router)帮助企业在跨地域专有网络之间,专有网络与本地数据中心间搭建私网通信通道,打造一张灵活、可靠、大规模的企业级云上网络。
云数据传输:云数据传输(Cloud DataTransfer,简称CDT)是一种为云上流量提供统一计费和出账服务的开通型产品。通过CDT,可以实现流量资源的弹性使用和便捷管理,从而有效降低IT成本。
支持对公网类产品的公网流量累计阶梯计费,每月按地域汇总累计阶梯,用量越大单价越低。
支持对跨地域类产品的跨地域流量按流量计费,这种计费方式更加灵活,方便按需使用。
设计原则
本小节概述了跨地域网络中常见的两个关键场景的设计和架构。重点介绍了针对每个场景所做的设计原则以及如何实现这些场景的参考架构。
整体架构设计主要围绕TR间连接关系、跨地域带宽、安全三个模块,具体如下:
TR间连接关系设计
直连的2个TR可以自动学习路由,也可以手动配置路由实现互通。
通过中间TR连接2个TR,并手动配置路由实现互通。
优先推荐直连互通。如果有通过中间TR做访问控制或者可能复用节省带宽考虑时,也可以考虑使用中间TR中转互通设计。
跨地域带宽设计
直连的两个TR除了配置互通连接关系外,还需要配置互通带宽,有2种方式:
按带宽计费:购买云企业网CEN大区间带宽包(按带宽计费),并将带宽分配到要互通的地域间,分配的带宽即为互通的限速带宽。
按流量计费:不需要购买CEN带宽包,在配置TR间互通时勾选按流量计费,并且配置互通的带宽峰值,注意该带宽为限速带宽。
推荐原则:业务峰谷明显时推荐按流量计费、业务平稳时推荐按带宽计费。
如果互通地域间跑多个业务(比如在线业务和离线业务),为了防止业务间相互挤占带宽,可以配置跨地域Qos。
安全设计【可选】
TR路由策略、VPC的NACL、安全组、防火墙等防护策略对跨地域互通都有效,按需设计即可。
设计关键点
整体方案设计围绕稳定性、高性能&大弹性、安全、可观测、自服务等5个设计原则。
稳定性设计
TR间跨地域互通的底层网络是阿里云全球传输网络,其中Underlay层多路径专线+智能调度容灾设计,Overlay层通过ZooRoute自动探活底层可用路径、业务收发包自动剔除故障路径、秒级容灾能力保证链路高可用。同时,建议优先使用TR直连互通并开启自动路由学习方式,以便于网络拓扑变化后路由随动刷新。
TR集群双AZ高可靠:转发路由器TR默认提供主备两个节点,主备节点自动切换,保障业务不中断。全网任意两个节点之间存在多组高质量传输链路,底层链路中断网络自动收敛,业务无感知。
同城VPC接入双AZ高可靠:VPC实例关联至TR时,请务必确保至少2个及以上可用区VSW ENI连接,保障同城VPC多可用区高可靠。由于与TR互联的VPC ENI主要用于VPC进出流量的转发,故为了和其他业务资源所需VSW的隔离以及不浪费企业的私网地址,我们一般建议在VPC下对应AZ创建两个/29的子网地址。
跨域连接多线路冗余高可靠:围绕TR跨地域连接,依托于底层阿里云传输网络基础设施,确保每个跨连接底层都是多对物理线路HA保障业务的连续性,SLA可达99.95%。近期我们全新推出更高质量的铂金线路,SLA可高达99.995%。
混合云专线/VPN接入的高可靠:请参考专线链路的可靠性设计中“专线链路的可靠性设计”章节内容。
高性能&大弹性设计
TR集群的高性能和弹性:单个TR集群最大支持400Gbps转发性能,且单个VPC连接最大支持50Gbps(华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、中国香港、新加坡地域为50 Gbps,其余地域为10 Gbps),无需用户配置规格按需弹性。若有更高的性能要求,建议联系您的阿里云商务经理。
跨地域流量的流量调度功能:用户能够依据标记值对不同类型的跨地域流量分别进行带宽限制,有效保证各类业务的跨地域带宽,提高网络整体的运行效率。
跨域带宽支持弹性付费:跨地域按带宽计费模式可以按月或按天灵活升配带宽。若已提前开通云数据传输服务CDT,TR跨地域带宽支持按流量计费。地域间限速带宽默认为1Gbps,用户可以在产品配额中心自助扩容。通过对跨域带宽峰值的调整,实现跨域互联带宽资源弹性扩容/缩容,来降低企业的单位成本。
跨域时延:用户能够基于网络智能服务NIS-性能观测模块的云网络互访性能,自助查询跨地域时延,来提前规划最优的多地域部署。
安全设计
若用户在网络互联的基础上,存在一些访问控制的网络安全需求。用户可通过TR路由策略、VPC的NACL、安全组、云防火墙等网络方案服务来按需设计访问控制策略,对同地域及跨地域互通都有效。
可观测设计
跨域网络流量观测分析:通过NIS-跨域流量分析模块观测跨域流量大小,判断总体业务是否异常,是否有异常流量。通过观测IP粒度的流量信息,判断个体业务是否异常,以及异常流量主要消耗在哪里。NIS流量分析能够以IP、端口、协议多维度展示通过转发路由器TR的云上跨域VPC,云上云下IDC间出入方向的流量,实现Top流量分析。
跨域网络流量监控分析:通过阿里云云监控Dashboard服务结合云企业网健康检查、基础监控模块等功能,可以查看CEN跨域带宽及物理专线的监控信息,包括流出带宽、流入带宽、延时和丢包率。
自服务设计
建议开启云网络智能服务NIS及云监控监控项的告警,及时感知风险。
企业运维人员可按需通过IaC自服务开通/部署/配置,无需阿里云后台接入,以便于更高效地支撑业务发展、降低业务受损影响。
设计最佳实践
场景一、通过TR构建云上/云下多个地域VPC的跨地域互联网络
场景概述:专有网络VPC实例、专线VBR实例、VPN实例被连接至转发路由器后,需要在转发路由器下创建跨地域连接,并为跨地域连接分配带宽,从而实现云上云下不同地域间的跨地域互通网络。
IDC上云接入:企业通过上云专线和IPsec-VPN打通IDC与阿里云杭州。企业IDC与阿里云专线接入点考虑到冗余性,建议优先考虑双物理专线或物理专线+VPN双线接入,并可以按需配置为双链路主备或负载冗余的方式,提升混合云互通时的整体可靠性。
云上跨地域:通过TR构建阿里云上海-杭州跨地域连接,同时开通CDT跨域带宽按流量计费,打通上海VPC、杭州VPC、杭州IDC。
若企业有三个及以上地域互联互通的需求,也可以在此架构基础之上,扩展多个地域TR的跨地域连接。
场景二、通过TR构建多地域fullmesh互联的组网模式
场景概述:客户在阿里云上海、深圳、杭州、北京VPC分别部署了服务,且多个地域间因业务需要,要求全地域打通,形成fullmesh组网。
云上多地域互联:通过四个地域下的TR构建多条跨地域连接,同时建议优先考虑开通CDT跨地域带宽按流量计费来降低跨地域的带宽成本,打通上海、深圳、杭州、北京VPC。
场景三、通过TR构建多地域hub-spoke互联的组网模式
场景概述:客户在阿里云上海、深圳、杭州、北京VPC分别部署了服务,上海为客户业务主中心,深圳、北京、杭州VPC均部署了前端服务需要与上海主中心做实时交互。但其他三个地域暂不存在互联的需求
云上多地域互联:通过上海地域TR分别与深圳、北京、杭州构建跨地域连接,同时建议优先考虑开通CDT跨域带宽按流量计费来降低跨域的带宽成本,打通上海与深圳、北京、杭州的链路。
场景四、使用流量调度功能控制各类流量的跨地域带宽
场景概述:跨地域连接的总带宽是固定的,在跨地域连接传输流量的过程中,各种业务流量通常会相互挤占带宽,造成网络利用率不高、业务通信质量下降等问题。不同业务的流量对网络的要求不同,例如:
视频会议和语音通话类流量注重网络传输的实时性,高丢包率和频繁抖动会降低通信质量。
办公SaaS类流量注重响应的及时性,网络堵塞会降低用户的使用体验。
办公文件传输类流量注重网络吞吐量,需要网络提供足够的带宽,对网络时延、网络抖动等网络性能指标要求不高。
流量调度功能支持为不同类型的跨地域流量添加标记,并且能够依据标记值对不同类型的跨地域流量分别进行带宽限制,有效保证各类业务的跨地域带宽,提高网络整体的运行效率。
流量调度配置:流量标记策略通过流分类规则捕获符合规则的流量,捕获后,可以为流量添加DSCP(Differentiated Services Code Point)值作为标记。
流量调度策略:流量调度策略依据流量被添加的DSCP值将流量划分为不同的队列,可以为不同的队列指定可使用的带宽值,保证各个队列的带宽不被侵占。
每个流量调度策略默认包含一个默认队列,在使用流量调度功能的过程中,对于未符合流分类规则的流量以及符合流分类规则但未被划分队列的流量,均会被系统自动划分至流量调度策略的默认队列,默认队列占用跨地域连接的剩余带宽。每个流量调度策略下,所有队列的带宽值之和不能超过跨地域连接的总带宽。
应用场景介绍
云上多地域业务数据同步/协同互通
云上多个地域VPC存在跨域互联的业务诉求,例如数据同步、远程运维、AI训练等。
异地灾备
企业客户可以通过在2个及以上多个城市节点部署业务系统,构建异地灾备基础架构,避免单个城市节点故障,保障业务连续性。同时充分利用公有云资源即开即用、按量付费的优势,以最低的成本来实现业务容灾目标。
异地多活
企业客户可以通过在2个及以上多个城市节点部署业务系统,构建异地多活基础架构,既可以避免单个城市节点故障,保障业务连续性。同时也能解决用户端就近互联网接入,提升用户端的访问体验。