云上数据中心网络方案

更新时间:

公共云是传统数据中心的虚拟化,以便于为海量租户提供即开即用、实时弹性的IT服务。因此,以VPC(Virtual Private Cloud)为核心的云上数据中心网络方案设计是用户用云的基础底座。本文围绕VPC阐述相关的网络方案。

1 背景和概念

1.1 什么是数据中心网络?

数据中心(Data Center)是指集中存放计算资源(如服务器)、存储设备、网络设备及其相关的基础设施(如供电、制冷、消防等系统),以便于管理和处理大量数据的物理场所或设施。数据中心的诞生有以下主要原因:

  • 数据量的爆炸式增长:随着计算机技术的发展和个人电脑、互联网的普及,企业和社会产生的数据量呈现爆炸式增长。传统的小规模或分散的数据存储和处理方式无法满足大规模数据管理的需求,因此需要一个专门的场所来集中存放和处理这些数据。

  • 对计算资源需求的增加:信息化、数字化的到来,企业和组织需要强大的计算能力来支持日益复杂的业务流程和应用,如ERP系统、客户关系管理系统(CRM)、电子商务平台等。这些系统要求有高性能、高可靠的服务器和存储设备,而这些设备的维护和管理需要专业的环境和技术支持,促进了数据中心的形成。

  • 网络技术的进步:互联网的兴起、尤其是移动互联网的发展,使得信息可以快速在全球范围内传播,这也推动了数据中心的发展。企业不仅需要内部的数据处理能力,还需要能够通过网络提供对外服务的能力,如网站托管、在线交易处理等。这需要建立稳定、高效的数据中心来保证服务质量。

数据中心网络是指在数据中心内部署的网络,用于支持服务器、存储系统和网络设备之间的高速数据交换。它旨在确保高效、可靠的数据传输,并提供对计算资源的快速访问,以满足现代企业应用和服务的需求。数据中心网络是数据中心基础设施的关键组成部分,直接影响到数据中心的整体性能、可用性和可扩展性。数据中心网络具有高性能、冗余高可用、灵活可扩展等特点,为了满足这些特点,数据中心的网络架构设计和演进非常重要。

1.2 什么是云网络?

在数字化时代,互联网已经成为基础设施。云计算使得数据中心能够像一台计算机一样工作。通过互联网将算力以按需使用、按量付费的形式提供给用户,包括:计算、存储、网络、数据库、大数据计算、大模型等算力形态。云计算的一个明显优势是弹性,能让您按需使用各类服务,灵活扩缩容,从容应对业务流量的不确定性。云计算平台下的网络具有如下特点:

  • 网络虚拟化:使用SDN+VXLAN等技术,将一张数据中心的物理网络虚拟出若干个相互独立的虚拟网络。

  • 多租户隔离:公共云天然多租户,每个租户使用一个或多个这样的虚拟网络来部署和管理自己的云计算等资源,租户间的网络相互不可见。

  • 弹性伸缩:数据中心的网络设备变成了公共云上的网元、网络线路变成了连接。网元和连接的数量随着租户的部署产生和消亡、网元和连接的能力根据负载情况随时增加或减少。

1.3 阿里云上租户的网络:VPC

阿里云为了管理庞大的物理数据中心资源,将物理数据中心进行如下划分、抽象和管理:

  • AZ:可用区(Availability Zone,简称AZ)是一个逻辑概念,指的是位于同一地理区域内,但彼此物理上独立的数据中心集合。为了便于理解,姑且可以将AZ对应到局域网。

    • 每个可用区设计有独立的供电、冷却系统及网络连接,以避免单点故障影响整个地理区域的服务。抽象出可用区的主要目的是为了提高应用程序和服务的高可用性和容错能力,即通过将资源分布在不同的可用区中,即使某个可用区出现问题,其他可用区仍然可以继续提供服务,从而保证业务连续性。

    • AZ内部设计分层的网络拓扑用于接入网络、计算和存储等设备。

  • Region:每个Region是一个地理区域,通常包含一个或多个可用区(Availability Zone, AZ),这些可用区之间通过低延迟的高速网络连接,但又相互独立以提供故障隔离。为了便于理解,姑且可以将Region对应到城域网。

    • 每个Region位于不同的地理位置,这有助于满足数据驻留法规要求、降低访问延迟,并提高灾难恢复能力。

    • 每个Region设计连接ISP公网的出口,用于与互联网连接。

    • 每个Region设计专线接入区,用于专线连接。

  • Region间互联:企业需要在全球范围内分布数据、实现灾难恢复策略或者优化全球用户的访问体验等,这就使得每个独立的Region之间要进行私网互联。为了便于理解,姑且可以将Region间互联对应到广域网。

Virtual Private Cloud,虚拟专有云,是在公共云上为租户单独开辟的隔离于其他租户的云空间,它不仅仅是网络,更是云、更像是一个云上的容器、包含了此租户所使用的云产品和云服务。

我们阿里云把它叫“专有网络”,实际上是为了对标云下的数据中心网络,只是从通信角度来说明其内承载的云服务依赖于这个专有网络来通信,这个网络是此租户专有的、隔离于其他租户的。

我们通常将阿里云的一个Region当作一个云上数据中心,客户的业务系统部署在这个Region的多个VPC中,因此需要设计构建VPC内的网络和这个Region内多个VPC间的网络。

2 本方案目标客户

阿里云上的全部客户。客户首先需要考虑业务系统如何划分VPC,然后围绕VPC内的网络和VPC间的网络设计方案。

VPC的划分原则:

最佳实践是先考虑多VPC(每个业务系统一个或多个VPC),原因:

1、多个VPC间天然划分出多个安全域

2、多个VPC间业务/模块独立,强隔离、弱互通(类似于白名单)

3、每个VPC是一个故障域,故障域小、发生故障后影响范围小

4、多个VPC财务独立结算和分账更容易

5、多VPC扩展性更好:单VPC能做的多VPC肯定能做

特殊情况可以考虑合并VPC:

1、节省跨VPC间通信成本

2、单VPC内资源好扩展

3、当业务系统少时,单个VPC更好管理

4、多业务容器POD混部时,资源利用率更好

3 方案介绍

根据VPC的划分原则划分好VPC之后,可以构建出整个网络架构:

  • VPC:几个,哪些Region,互通关系

  • 公网(应用交付网络):哪些VPC有公网、是入还是出,是否统一公网出入口、SLB的选择

  • 云上跨地域:哪些Region要互通及带宽、哪些地域有专线及规格,哪些地域有VPN及规格

image.png

接下来设计网络架构中VPC内的网络和VPC之间互通的网络。

3.1 VPC内网络方案

【方案概述】VPC是承载云资源的容器和平台,VPC内网络的规划和设计至关重要,它关系到云资源是否安全、后期扩容是否平滑、运维是否方便等问题。从VPC选址、IP地址规划、子网和路由规划、安全防护等角度设计VPC内网络。

image

1、确定地理位置

  • 根据业务的服务对象所在位置选择地域(Region)。根据云资源储备情况、可用区时延情况选择可用区AZ

2、IP地址规划

  • VPC网段:根据未来网络容量大小(超大型10/8,大型172.16/12,中型192.168/16),建议至少选择16位掩码

  • VPC间地址不能重叠

  • 业务交换机网段:超大型、大型VPC建议选择20位子网掩码(包含4K个地址),中型VPC建议选择24位子网掩码(包含252个地址)

3、业务子网交换机

  • 如图中的业务子网A、B、C、D、E,用来放置云服务器、云数据库等,这些交换机中的云产品实例私网地址默认全互通

  • 建议多可用区冗余部署、提升可用性,如业务子网AB、业务子网CD

  • 业务子网交换机,如果没有和公网通信的诉求,为其创建私网路由表(没有默认路由0.0.0.0/0)并关联

4、入云(被公网访问)连接

  • 如果VPC中部署被公网客户端访问的服务系统,建议使用负载均衡SLB

  • SLB实例采用多可用区部署、提升可用性

  • SLB实例在多可用区创建交换机和子网,如图中的SLB子网A、B、C、D

  • 承接公网访问的SLB实例关联弹性公网IP(如图的EIP3)、连接到公网,其所在的子网交换机关联到系统路由表(默认,公网);在IPv4网关激活时此路由表中的默认路由0.0.0.0/0将访问的应答流量引流到IPv4网关送到公网,IPv4网关不激活时不需要此默认路由而直接抵达公网

5、出云(访问公网)连接

  • 如果VPC中部署的云服务器有访问公网的需求,建议使用NAT网关

  • 建议在要出网的云服务器所在可用区分别创建NAT交换机和子网,如图中的NAT子网A、B;在这些交换机中都创建NAT网关实例、尽量避免跨可用区访问NAT网关(降低可用区故障时对出网访问的影响)

  • NAT实例关联弹性公网IP(如同的EIP1、EIP4,每个NAT网关可关联多个EIP提升带宽和并发连接)、连接到公网,其所在的子网交换机关联到系统路由表(默认,公网);在IPv4网关激活时此路由表中的默认路由0.0.0.0/0将出网流量引流到IPv4网关送到公网,IPv4网关不激活时不需要此默认路由而直接抵达公网

  • NAT网关上配置SNAT规则(对应要出网的业务交换机或者云服务器)

  • 为要出网的业务交换机创建引流到NAT网关的路由表(如图子网路由表1(NAT网关))并关联,此路由表中的默认路由0.0.0.0/0将出网流量引流到NAT网关

6、ECS直通公网

  • 有些应用服务器是随着业务需求随时拉起和释放的、服务端口是随机的(比如游戏的战斗服、房间服,音视频会议服等);有些应用服务器出网访问需要独立的带宽,避免共用NAT网关被其他服务干扰。对于这些服务器不经过SLBNAT、而是通过EIP直通公网更适合。ECS直通公网有以下2种方式:

    • EIP以普通模式直接绑定到ECS,使ECS直接具备入出公网的能力。此时EIP是一种NAT IP(在后台隐藏的公网网关上做NAT映射),所以在ECS实例的私网网卡上无法查看到EIP。即:ECS内的应用程序不感知EIP,所以无法完成像SIP协议的源端IP+端口声明等

    • 创建辅助弹性网卡绑定到ECS,EIP以网卡可见模式绑定到辅助弹性网卡(EIP网卡可见模式不支持直接绑定ECS、不支持绑定ECS的主网卡)。此时EIP不再是公网网关上的NAT IP,EIP直接替换辅助弹性网卡的私网IP、辅助弹性网卡变为一个纯公网网卡。此方案可支持全部IP协议类型的应用,包括FTP、H.323、SIP、DNS、RTSP、TFTP

7、IPv4网关设计【可选&推荐】

  • 当要控制服务器配置公网IP或绑定EIP、公网SLB直出公网时,开启IPv4公网网关。公网网关开启后,所有交换机关联的路由表必须有到公网网关的路由才能去公网

8、安全防护设计【可选】

  • 网络访问控制列表(NACL)可以控制交换机(子网)粒度流量阻断,网络ACL是无状态的

  • 安全组可以控制服务器粒度的流量阻断,安全组是有状态的

9、监控和日志记录【可选】

  • 配置NIS进行日常诊断观测,按需使用flowlog 和流量镜像,并配置对应云监控告警

10、容器的VPC网络设计类似,区别在于以下几点:

  • Terway网络插件时,需额外规划Pod交换机和子网

  • Flannel网络插件时,需要考虑VPC路由表路由条目容量配合、Pod网段避免冲突

  • 入云连接采用NLBLoadBalancerALBIngress方式(参见应用交付网络方案部分)

  • Pod可以关联EIP直通公网(不支持网卡可见模式)

3.2 同RegionVPC间网络方案

当部署在不同VPC中的业务系统间需要访问时,就需要考虑VPC间互通的方案。包括互通与隔离设计,打印机、文档库等共享服务的访问设计,大型企业公网出入口的统一管控等。

3.2.1 VPC间东西向互通方案

【方案概述】VPC间互通方案,首先要考虑的是谁与谁互通、谁与谁不互通,在不引入防火墙做集中管控的情况下,使用转发路由器TR的路由表可以实现。

image.png

image.png

1、确定VPC的划分

  • 根据前面的VPC划分原则进行VPC划分,对于通信峰值带宽大的(杭州/上海/北京/深圳/新加坡地域大于50Gbps,其余地域大于10Gbps)两个VPC考虑进行合并

2、转发路由器TR实现VPC间互通

  • 需要互通的业务VPC,全部创建连接TR的交换机(建议多可用区)并attachementTR

  • 如果TR挂载的VPC之间是强互通诉求,TR只使用一张系统路由表(默认)关联转发全部VPC,来进行VPC间的流量转发。见上图VPC全互通

  • 如果TR挂载的VPC之间有些是强隔离诉求,TR使用多张自定义路由表关联转发各自VPC,来进行VPC之间的流量转发,同一路由表内的VPC可见、不同路由表内的VPC间不可见。见上图VPC间隔离

3、安全防护设计【可选】

  • VPC内网络ACL(NACL)可以控制交换机(子网)粒度流量阻断,网络ACL是无状态的

  • ECS的安全组可以控制服务器粒度的流量阻断,安全组是有状态的

  • Transit Router(TR)的路由表-路由策略可以隐藏某些VPC的某些网段(TR整网不可见或某些VPC不可见),实现VPC子网粒度的隔离

4、监控和日志记录【可选】

  • 配置NIS进行流量监测、诊断观测

3.2.2 VPC间过防火墙互通方案

【方案概述】当VPC间有复杂的互通与隔离需求时,建议使用防火墙做集中安全管控。

image.png

1、转发路由器TR实现VPC间互通

  • 业务VPC和安全VPC,全部创建连接TR的交换机(建议多可用区)并attachmentTR

  • 自定义路由表1作为非可信路由表,默认路由0.0.0.0/0、下一跳到安全VPC;关联转发全部业务VPC、将源端业务VPC来的流量全部引流到安全VPC进而到云防火墙实例进行安全清洗

  • 系统路由表(默认)作为可信路由表,自动学习全部VPC的路由;关联转发云防火墙VPC,将防火墙清洗过的流量转发到目的业务VPC

2、安全VPC接入云防火墙实现集中安全管控

  • 在此VPC内创建防火墙交换机和子网,并在其内创建云防火墙实例

  • 连接TR的交换机子网,默认关联到系统路由表

  • 云防火墙实例的交换机子网,关联到自定义子网路由表1

  • 系统路由表配置默认路由0.0.0.0/0、下一跳到云防火墙ENI(弹性网卡,此网卡具备主备容灾能力、备可用区隐藏客户不可见),将TR过来的流量全部引流到防火墙

  • 自定义子网路由表1配置默认路由0.0.0.0/0、下一跳到TR,将云防火墙实例清洗过的流量全部送往TR做转发

3、监控和日志记录【可选】

  • 配置NIS进行流量监测、诊断观测

3.2.3 企业服务共享的网络方案

访问企业自建的共享服务

【方案概述】当企业在云上有自建共享服务(如打印机、文档库等)需要被多个业务部门访问时,需要设计服务共享网络。

image.png

1、网络多平面设计

  • 当企业内部各部门(比如开发、测试;财务、HR、行政;等)间网络有强隔离诉求时,使用多个TransitRouter(TR)做成多个网络平面、每个网络平面之间完全隔离不可见

  • 每个TR连接各自部门内的VPC

2、公共服务VPC设计

  • 当有公共服务(企业在VPC内自建的,比如打印机)被各个隔离部门访问时,将公共服务部署在公共服务VPC,此VPC分别被各个部门的TR挂载

  • 系统路由表:不要从TR自动学习路由,改为配置自定义路由:到VPC1的子网前缀下一跳走Attachement2、到VPCn的子网前缀下一跳走Attachement4

访问阿里云的云服务/云产品

【方案概述】当企业多个业务部门访问阿里云原生自有的云服务/云产品(如RDS、OSS、百炼等)时,需要设计访问网络。

image

阿里云上的云服务/云产品,从网络角度看可以分为3类:

  1. 客户VPC内部署的(标准的VPC私网地址),比如RDS,客户可以规划这些私网地址并通过标准的VPC内网网络或跨VPC网络设计进行通信

  2. 非客户VPC内部署的(没有标准的VPC私网地址)、但提供阿里云上公共地址段(100.64.0.0/10)内地址,如OSS。客户VPC可以直接访问到,但不支持私网地址规划和管理

  3. 只有公网地址(没有私网地址),如服务平台百炼。

对于以上没有私网地址和非标准的VPC私网地址的SaaS云服务,如果客户想统一地址管理并通过标准私网地址访问,可以通过PrivateLink产品进行代理转换

1、公共服务VPC设计

  • 划分连接TR的交换机子网

  • 划分放置PrivateLink终端节点的交换机子网,建议多可用多活冗余

2、业务VPCSAAS云服务的访问设计

  • 业务VPC和公共服务VPC都挂载在TR

  • 业务VPC经过TR,通过公共服务VPCPrivateLink的终端节点(多个弹性网卡ENI的私网IP或者域名)访问到SAAS云服务

3.2.4 统一公网出入口方案

【方案概述】企业客户统一由云IT团队管理公网资源和开通权限,禁止业务部门私自开通公网类型实例;客户需要通过安全合规的网络架构最大化保护企业内部服务,防止潜在的安全威胁;统一管理公网类型产品预算,同时最大化复用公网带宽资源,降低IT成本。因此需要设计统一公网出入口的网络(对标IDCDMZ区)。

image

1、场景整体设计

  • 云上统一公网出入口(DMZ VPC),是新建一个VPC,作为隔离外部互联网(非信任区域)和企业云上内网(信任区域)之间的一个接入接出区域。一方面,统一公网出入口设计,集中管理了公网接入接出资源,便于构建高并发大流量的应用接入网关、管理企业外联访问控制、合理利用公网带宽资源。另一方面,通过和安全产品结合,可以确保企业内网得到最大程度的保护。

2、Transit Router(TR)及路由表设计

  • 有公网出入口的业务VPCDMZ VPC都挂载到TR

  • TR使用系统路由表(默认)。路由表中配置自定义路由0.0.0.0/0、下一跳到DMZVPC,将出公网的流量引入到DMZVPC进而出公网;公网入的流量经过SLBNAT网关目的IP转换成私网地址后查此路由表的明细路由转发到目的VPC

3、DMZ VPC设计

  • SLB子网:划分独立的SLB子网(Public子网),部署SLB实例;每个SLB实例多可用区部署提升可靠性

  • NAT子网:划分独立的NAT子网(Public子网),部署NAT实例;有出公网需求的业务交换机同可用区部署独立NAT实例,以便于在可用区故障时不影响其他可用区的NAT出网流量

  • IPv4网关:统一管控公网入口

  • 公网带宽:1)共享带宽包支持按带宽预付费、按带宽后付费、按带宽95计费、按流量计费,共享带宽内EIP共享总带宽并受限速;2)CDT公网支持按流量计费,并且Regionuid维度累计计量享受阶梯价格

  • 路由表:参考VPC内网络设计

4、安全防护设计【可选】

  • 公网入云防护:推荐使用互联网边界防火墙

  • 公网出云防护:ECS自带公网IP、EIP推荐使用互联网边界防火墙;NAT出公网推荐使用NAT边界防火墙,可以使用VPC边界防火墙

4 应用场景

场景描述

方案选择

  • 新上云的客户,需要为业务系统设计VPC内网络

  • 云上存量客户,新增业务系统设计VPC内网络

  • 云上存量客户,需要优化VPC内网络

1、VPC内网络方案

  • 客户多业务系统同时上云,设计多VPC网络

  • 客户新增业务系统,设计独立的VPC并与已有VPC通信

2.1 VPC间东西向互通方案

安全合规要求或整改,需要使用防火墙做统一安全管控

2.2 VPC间过防火墙方案

企业自建的打印机、文档库等需要给多个部门共享访问

2.3.1访问企业自建的共享服务方案

企业阿里云上系统需要使用私网地址访问阿里云的云产品/云服务

2.3.2访问阿里云的云产品/云服务

企业由云IT团队统一管理公网资源和开通权限

2.4统一公网出入口方案