网络规划

更新时间:

概述

网络规划是构建AI Landing Zone的基石,它如同设计一套贯穿全局的"神经网络",为数据的高效流转、算力的无缝协同以及服务的安全交付提供基础保障。本章旨在提供一个贯穿AI业务全生命周期(数据采集、模型训练、模型推理)的网络设计蓝图。我们将从VPC划分、路由设计、跨域互联到安全隔离等多个维度,系统性地阐述如何构建一个高性能、高安全、高可用且具备成本效益的AI网络基础设施,确保您的AI应用在阿里云上稳定、高效地运行。

背景与挑战

AI业务对网络的要求远超传统应用,其独特的业务流程和数据密集型特点,给网络规划带来了四大核心挑战:

  • 极致的性能要求:尤其在模型训练阶段,大规模分布式训练任务需要在数百乃至数千个计算节点间进行高频的梯度同步,这要求网络具备超低延迟、超高吞吐和接近无损的通信能力(如RDMA),传统TCP/IP网络难以满足。

  • 复杂的连接场景:AI生命周期涉及与全球多点数据源(公网)、企业本地数据中心(IDC)、云上多地域VPC以及最终用户的广泛连接。如何构建一个安全、高效的混合云、多地域全球网络,是规划中的一大难题。

  • 严苛的数据安全与合规:AI系统处理的数据量巨大,且往往包含商业机密或个人隐私等敏感信息。网络设计必须在保障数据高效传输的同时,实现严格的访问控制和逻辑隔离,防止数据在流转过程中被窃取或滥用,并满足不同地域的合规要求。

  • 架构的弹性与扩展性:AI应用架构多样,从MaaS、PaaSIaaS,不同部署模式对网络的需求各异。同时,AI业务负载(如突发的推理请求)具有高度不确定性。网络架构必须具备足够的灵活性和弹性,以支持业务的快速迭代和未来规模的平滑扩展。

具体方案

AI业务,按照过程分为3个阶段,每个阶段分别对网络提出了不同的能力要求:

  • 数据采集与预处理:就近数据源端提升数据采集效率并节约采集流量成本、全球内网支撑数据回传和聚集速度、支持多种数据标注工具安全接入

  • 模型训练:构建全球、多云统一算力资源池、提供高吞吐数据通道,保障低延迟、无损和安全通信,提升训练效率

  • AI推理:就近接入推理、全球内网智能调度调用,实现毫秒级时延闭环和安全应用

参考《AI LandingZone白皮书》中资源规划章节进行整个企业的AI资源和已有业务的规划。假设资源规划和多账号体系设计已经完成,本章节阐述账号内部的网络规划,即:

  • 针对3个阶段的网络资源划分VPC

  • 规划设计VPC内网络

  • 规划设计VPCVPC间、VPC和公网、VPCIDC间等的互通网络(要考虑已有业务的VPC)

数据采集与预处理阶段

全球训练数据聚集与预处理网络方案的核心在于提供大规模、弹性的公网IP与带宽资源,支撑从全球互联网高效采集海量原始训练数据。依托阿里云全球基础设施,方案可按需提供大量独立公网IP和高带宽出口,有效应对采集过程中的IP问题、并发限制和带宽瓶颈,显著提升数据获取的并发能力与成功率。采集完成后,方案无缝衔接跨地域高速传输能力,通过阿里云全球网络实现数据在不同区域之间的低延迟、高吞吐汇聚,确保分散采集的数据能快速、稳定地集中至指定计算节点进行预处理。方案不仅保障公网采集端的资源供给,也打通了全球多地域间的数据流转通道,实现“采集—传输—预处理”全链路高效协同。整体架构以资源弹性、全球部署和跨域互联为优势,为大模型训练构建端到端的高性能数据管道。

image

VPC划分

云上数据采集场景的VPC划分应遵循最小权限、分层隔离、安全可控、弹性可扩展原则

可采用多VPC架构或者单VPC多子网架构。

  1. 按业务功能分层划分

    将数据采集、预处理、存储、训练和推理等不同阶段部署在不同的子网或VPC中,形成逻辑隔离。例如:

    • 数据采集入口建议放在DMZ VPC或者公共子网;

    • 预处理与中间数据暂存放在独立的处理VPC;

    • 敏感原始数据存储与AI训练放在高安全VPC,禁止公网直接访问。

  2. 按安全等级隔离

    根据数据敏感性和合规要求,划分高、中、低安全等级VPC或者高、中、低等级安全子网,并通过安全组、网络ACL、私网连接控制跨VPC\跨子网通信权限,禁止高敏感系统直接暴露公网。

  3. 按租户或项目隔离

    在平台型数据采集系统中,可为不同租户或项目分配独立VPC,实现资源、网络与数据的完全隔离,避免"邻居干扰"。

数据采集出口网络(NAT网关/自建代理方案)
  • 通过弹性公网IP(EIP)与共享带宽,灵活、经济地接入公网数据源,并统一管理出口带宽资源,进行数据汇聚。

  • 基于云企业网(CEN)的网络全球互联领域,打通全球多个地域的VPC,实现跨区域、低延迟、高带宽的私网互联,构建统一的数据传输网。

  • NAT网关保障私有网络中的计算节点安全访问互联网,实现数据采集与预处理的合规隔离;

  • IPv6网关则支持新一代网络协议,用于进行IPv6资源数据聚集。

整套网络方案在保障数据传输安全、稳定的同时,显著提升全球数据汇聚效率与预处理性能,为大规模AI训练提供坚实、敏捷的网络基础设施支撑。

NAT网关方案:使用EIP地址池,提升公网IP数量;使用NAT网关作为出口,采集程序SNAT随机公网IP出向访问。适用于通用数据采集场景

自建代理方案:客户自建代理机器,维护数据采集进程和公网IP之间的映射关系,把同一个数据采集请求分拆到不同的代理机器上出公网。

image.png

就近数据源地域选定Region部署VPC,VPC内部署NAT网关绑定EIP,配置SNAT规则供VPCECS或容器POD做出向访问、采集数据。如果需要海量公网IP作为采集源IP时,可以考虑使用Private Link集成三方代理IP方案。

数据采集出口网络(IP服务方案)

阿里云全球训练数据采集网络方案协同IP服务商,提供大规模、弹性的公网IP与带宽资源,支撑从全球互联网高效采集海量原始训练数据。依托阿里云全球基础设施,方案使用阿里云私网连接产品通过云上内网访问IP服务商,具备访问成本低,安全可控,质量稳定等优势,并通过IP服务商完成数据采集工作。

image.png

采集数据跨地域聚集和预处理网络

image.png

  1. 根据数据预处理集群规划,就近选定存放数据的OSS所在Region、在同Region内创建数据聚集VPC(此VPC内暂时不需要创建资源,只是通过它中转访问OSS);各地域创建TR、连接本地VPCTR间互联,打通各地域数据采集VPC可以直接访问数据聚集地OSS的网络通道。

    1. 跨地域多VPC互通详细设计可以参考:CEN构建云上跨地域网络

    2. 访问OSS配置参考:配置访问云服务

  2. OSS所在地域创建PAI-iTAG、Max Compute、Flink等云服务,将OSS内采集到的数据进行数据标注等预处理后,再写回OSS。也可以在数据采集VPC内创建CPUGPU算力、自己部署工具进行数据预处理。

模型训练阶段

模型训练的网络和数据采集与数据预处理的网络紧密相连:训练网络消费采集后经过预处理的海量数据集,因此它们共同构建了一张全球网络。这张网络不仅跨越地域边界,连接云上数据中心、边缘节点与本地IDC,还通过高速互联(如阿里云CEN、TR、GA等)实现低延迟、高吞吐的数据流转。数据从源头(如IoT设备、用户行为日志、公开数据集)被采集后,经由预处理流水线(包括清洗、标注、格式转换、特征工程等)写入高性能存储系统(如CPFS、OSSNAS),再由训练集群按需拉取。为保障端到端效率,整个链路需在带宽、安全策略、访问控制和容灾能力上协同设计——例如,预处理任务可部署在靠近数据源的区域以减少传输开销,而训练任务则调度至具备RDMA加速能力的灵骏集群;同时,通过统一的VPC规划和路由策略,确保数据在采集、预处理与训练各阶段无缝、安全、高效地流动。这种一体化的网络与数据架构,已成为支撑大模型时代AI工程化落地的核心基础设施。本章介绍训练网络的设计。

image.png

基于PAI DLC训练的网络规划与设计

DLC是由阿里云人工智能平台PAI提供的训练平台,它帮助用户快捷地创建单机或分布式训练任务,适用于需要快速启动训练任务的用户,支持多种深度学习框架,并提供灵活的资源配置选项。它的底层使用Kubernetes拉起计算节点,对用户屏蔽了大部分关于集群、网络、存储的细节,避免了用户手动购买机器并配置运行环境,且无需改变原有使用习惯。

网络总览

image.png

对于DLC算力集群,每个worker节点接入以下三个网络:

  1. 机尾网络:机尾网络是支持RDMA的高性能网络,用于节点间的高速通信,特别是在分布式训练中传输梯度、模型参数等。

  2. 专有网络:用于连接用户的私有网络,比如云上同地域或跨地域的VPC、线下IDC。这个连接是可选的:

    1. 用户没有连接到专有网络。每个算力worker节点仍然会连接到一个共享的VPC,该网络只用于拉取镜像、访问OSS,无法连接用户的私有网络。

    2. 用户连接到自己的某个VPC,通过该VPC可以连接用户的私有网络,比如云上同地域或跨地域的VPC、线下IDC。当使用CPFS作为数据集源、或者使用灵骏竞价资源时,都必须使用VPC。

  3. 公网:仅支持由内到外的主动访问。DLC 提供两种公网访问方案:

    1. 公有网关,所有的用户共享公网带宽,在用户并发高时下载速率会较慢,可能导致训练任务下载外部数据集较慢。

    2. 专有网关,独享带宽,可根据需求配置带宽,仅当用户选择连接到专有网络模式下可以选择使用。使用专有网关务必按照操作手册配置好访问路由,并在启动后的实例中验证配置是否成功。

基于 Landing Zone 最佳实践,推荐如下配置:

  1. 规划VPC作为DLC算力集群的专有网络,并且将存放训练数据集的CPFS/NAS也放在该VPC下。

  2. 使用专有网关模式,提升worker节点访问公网的速度和稳定性。

网络设计

确定地理位置

  • 根据云资源尤其是灵骏智算资源、CPFS的储备情况、可用区时延情况选择可用区AZ

训练专用VPC设计

  • 划分训练专用VPC,用来存放训练用到的数据,以及worker节点访问公网的出口。建议该VPC不对外提供服务,不部署 SLB 等公网暴露型资源

  • 建议该VPC预留创建用于部署ACK灵峻集群的POD子网,参考2.3

  • 子网网段设计

    • NAT子网:一般情况下,每个可用区规划一个/28网段可以满足需求,最大支持放置12NAT实例。

    • TR子网:一般情况下,每个可用区规划一个/28网段可以满足需求,最大支持连接到12TR。

    • 存储子网:根据数据集的规模和划分确定需要多少CPFS/NAS实例,每个实例在每个可用区占用一个IP。一般情况下,每个可用区规划一个/28网段可以满足需求。

    • DLC子网:根据需要的worker节点数量确定网段,每个worker节点占用一个IP。

  • VPC CIDR规划:VPC CIDR应该覆盖上述子网网段,并预留一定的扩容空间后,选择覆盖上述空间的最小网段作为VPCCIDR,且应避免与用户其他业务网段发生冲突。不要选择10.0.0.0/8等大段,否则可能导致后续无法复用该VPC支持ACK灵骏集群训练场景

  • 路由表设计

    • 系统路由表(默认):1)创建VPC后,系统会默认创建一张系统路由表,此表有到VPC内所有交换机的路由;2)在此表中添加前缀为0.0.0.0/0路由下一跳指向IPv4网关。该路由表允许VPC内访问,和所有绑定EIP的资源(ECS/NAT网关)访问公网。

    • 子网路由表1(出公网):1)在此表中添加前缀为0.0.0.0/0路由下一跳指向NAT网关。该路由表允许VPC内访问,以及通过NAT网关访问公网。

    • 子网路由表2(私网):1)在此表中添加静态三大段10.0.0.0/8、172.16.0.0/12、192.168.0.0/16指向TR attachment。该路由表允许所有私网访问。

    • 子网路由表3(私网+公网):1)在此表中添加前缀为0.0.0.0/0路由下一跳指向NAT网关。2)在此表中添加静态三大段10.0.0.0/8、172.16.0.0/12、192.168.0.0/16指向TR attachment。该路由表允许所有私网和公网访问。

    • 子网路由表4(VPC内):1)创建该表后,不添加任何自定义路由。该路由表仅允许VPC内访问。

  • 子网(交换机)和路由表关联关系

    • NAT子网:关联到系统路由表。

    • TR子网:

      • VPC作为组网中的统一公网出口,则关联到子网路由表1(出公网)。

      • 其它情况下,关联到子网路由表4(VPC内)。

    • 存储子网:关联到子网路由表2(私网),允许数据采集程序通过CENTRVPC写入采集数据,读取训练的结果等。

    • DLC算力子网:

      • DLC训练集群需要到公网拉取数据,并且也需要跨TR访问其它资源,则关联子网路由表3(私网+公网)。

      • DLC训练集群仅需要到公网拉取数据,则关联子网路由表1(出公网)。

      • DLC训练集群不需要访问公网,但需要跨TR访问其它资源,则关联子网路由表2(私网)。

      • DLC训练集群不需要访问公网,也不需要跨TR访问其它资源,则子网路由表4(VPC内)。

  • 安全防护设计(可选)

    • 网络ACL(NACL)可以控制交换机(子网)粒度流量阻断,网络ACL是无状态的。不建议在TR子网/NAT子网上配置NACL。

    • 在创建DLC算力集群时,需要指定Worker节点接入私网用的安全组,并且只能指定唯一一个安全组。建议为每个AZ的算力集群创建专用的安全组规则,并按需配置安全组规则。

  • 公网网关设计(可选&推荐)

    • 推荐使用专有网关模式,提升worker节点访问公网的速度和稳定性。

场景指南

通过专有网关提升公网访问速率

由于DLC默认使用共享网关,受带宽限制,下载大型文件时网速可能无法满足需求。因此,当您想要提升网络上传和下载速度时,可以为实例所在专有网络(VPC)创建公网NAT网关、绑定弹性IP(EIP)并配置SNAT,从而使实例通过专有公网网关高速访问互联网。参考通过专有网关提升公网访问速率

worker节点访问海外公网加速

当在训练中使用到海外的数据,如Hugging Face的数据集,或者是海外的镜像时,可以使用GA进行访问公网加速。请参考:跨域拉取海外模型或容器镜像

worker节点不允许访问公网

参考前一节的子网(交换机)和路由表关联关系,将DLC算力子网关联到子网路由表2(私网)或者子网路由表4(VPC内)。

基于ACK灵骏训练的网络规划与设计

阿里云容器服务ACK灵骏托管版集群是容器服务Kubernetes版(ACK)针对智能计算灵骏提供的集群类型,提供全托管和高可用控制面板的标准Kubernetes集群服务,支持以灵骏计算节点作为Kubernetes集群的工作节点。通过对基础设施资源的深度管理,通过ACK灵骏集群能够实施GPU 直连、NUMA绑定、多网卡多队列优化、自定义调度策略等,有利于充分发挥超大规模GPU集群的性能潜力。

网络总览

image

对于ACK灵骏算力集群,它的网络插件只支持Terway插件,它的网络是由容器网络和机尾网络组成:

  1. POD网络,容器网络的一部分,通过Terway网络插件接入VPC,并通过VPCTR连接用户其它的私有网络和公网,比如云上同地域或跨地域的VPC、线下IDC。

  2. Service网络,容器网络的一部分,由 Kubernetes 原生的 Service 机制实现,基于 kube-proxy 和 iptables/IPVS 规则提供集群内部的服务发现与负载均衡能力。在 ACK 灵骏集群中,Service 的 ClusterIP 地址段独立于 VPC 网段。

  3. 机尾网络。机尾网络是支持RDMA的高性能网络,用于节点间的高速通信,特别是在分布式训练中传输梯度、模型参数等。

网络设计

确定地理位置

  • 根据云资源尤其是灵骏智算资源、CPFS的储备情况、可用区时延情况选择可用区AZ

训练专用VPC设计

  • 划分训练专用VPC,用来存放训练用到的数据,以及ACK灵骏算力集群节点访问公网的出口。建议该VPC不对外提供服务,不部署 SLB 等公网暴露型资源

  • 建议该VPC预留创建用于部署DLC训练集群的子网,参考2.3

  • 子网网段设计

    • NAT子网:一般情况下,每个可用区规划一个/28网段可以满足需求,最大支持放置12NAT实例。

    • TR子网:一般情况下,每个可用区规划一个/28网段可以满足需求,最大支持连接到12TR。

    • 存储子网:根据数据集的规模和划分确定需要多少CPFS/NAS实例,每个实例在每个可用区占用一个IP。一般情况下,每个可用区规划一个/28网段可以满足需求。

    • POD子网:根据需要的POD节点数量确定网段,每个POD节点占用一个IP。

  • VPC CIDR规划:VPC CIDR应该覆盖上述子网网段,并预留一定的库容空间后,选择覆盖上述空间的最小网段作为VPCCIDR,且应避免与用户其他业务网段发生冲突。不要选择10.0.0.0/8等大段,否则可能会因为Service网段跟VPC CIDR冲突无法创建集群。

  • 路由表设计

    • 系统路由表(默认):1)创建VPC后,系统会默认创建一张系统路由表,此表有到VPC内所有交换机的路由;2)在此表中添加前缀为0.0.0.0/0路由下一跳指向IPv4网关。该路由表允许VPC内访问,和所有绑定EIP的资源(ECS/NAT网关)访问公网。

    • 子网路由表1(出公网):1)在此表中添加前缀为0.0.0.0/0路由下一跳指向NAT网关。该路由表允许VPC内访问,以及通过NAT网关访问公网。

    • 子网路由表2(私网):1)在此表中添加静态三大段10.0.0.0/8, 172.16.0.0/12, 192.168.0.0/16指向TR attachment。该路由表允许所有私网访问。

    • 子网路由表3(私网+公网):1)在此表中添加前缀为0.0.0.0/0路由下一跳指向NAT网关。2)在此表中添加静态三大段10.0.0.0/8, 172.16.0.0/12, 192.168.0.0/16指向TR attachment。该路由表允许所有私网和公网访问。

    • 子网路由表4(VPC内):1)创建该表后,不添加任何自定义路由。该路由表仅允许VPC内访问。

  • 子网(交换机)和路由表关联关系

    • NAT子网:关联到系统路由表。

    • TR子网:

      • VPC作为组网中的统一公网出口,则关联到子网路由表1(出公网)。

      • 其它情况下,关联到子网路由表4(VPC内)。

    • 存储子网:关联到子网路由表2(私网),允许数据采集程序通过CENTRVPC写入采集数据,读取训练的结果等。

    • POD子网:

      • ACK训练集群需要到公网拉取数据,并且也需要跨TR访问其它资源,则关联子网路由表3(私网+公网)。

      • ACK训练集群仅需要到公网拉取数据,则关联子网路由表1(出公网)。

      • ACK训练集群不需要访问公网,但需要跨TR访问其它资源,则关联子网路由表2(私网)。

      • ACK训练集群不需要访问公网,也不需要跨TR访问其它资源,则子网路由表4(VPC内)。

  • 安全防护设计(可选)

    • 网络ACL(NACL)可以控制交换机(子网)粒度流量阻断,网络ACL是无状态的。不建议在TR子网/NAT子网上配置NACL。

ACK灵骏集群网络设计

  • Service网段规划:根据使用的Service数量规划网段,该网段不能与VPC CIDR重叠冲突。

  • 是否对公网暴露ACKAPI service:根据业务需要选择。

  • Ingress:根据业务需要选择:公网、私网、不需要。

公网网关设计【可选&推荐】

  • 当训练业务需要访问公网,如从Hugging Face上拉取数据集时,请将POD子网关联到子网路由表1(出公网)。

场景指南

灵骏节点访问海外公网加速

当在训练中使用到海外的数据,如Hugging Face的数据集,或者是海外的镜像时,可以使用GA进行访问公网加速。请参考:跨域拉取海外模型或容器镜像

灵骏节点不允许访问公网

参考前一节的子网(交换机)和路由表关联关系,将POD子网关联到子网路由表2(私网)或者子网路由表4(VPC内)。

融合算力训练的网络规划与设计

image

在上面设计的基础上,很容易将训练网络扩展为既支持基于PAI DLC训练场景,又支持ACK灵骏集群训练场景的融合场景:

  • 训练专用VPC中复用NAT子网、存储子网、TR子网,共享相同的公网隔离和加速方案

  • 分别为ACK灵峻集群和DLC算力集群规划相应的子网

  • ACK灵峻集群中的网络设计,请参考2.2

  • DLC算力集群中的网络设计,请参考2.1

注意:DLC算力集群的worker节点也会连接机尾网络(图略)。

模型推理阶段

从网络视角看大模型推理服务,自上而下可以分为4层:

image.png

  • 服务接入层:部署公网或私网接入网关,接入互联网用户或云上企业用户的推理请求

  • 模型分发层:部署模型分发网关,根据将推理请求分发到不同的后端模型,实际部署时可能省略

  • 服务分发层:部署模型对应的服务分发网关,根据推理请求信息将请求路由或负载到对应的模型服务上

  • 模型推理层:根据大模型推理业务特征、开发和运维能力等选择合适平台进行的模型部署

接下来将分层介绍各层的网络规划与设计。

模型推理层的网络规划与设计

百炼平台MaaS化部署模型的网络

阿里云的大模型服务平台百炼,是一站式的大模型开发及应用构建平台。

用户使用百炼平台部署模型或Agent时,实际是部署在百炼平台的VPC中,这个VPC被托管在百炼后台账号中,用户不可见、所以不需要规划和设计。

但是,百炼平台VPC和外界交互通信网络,需要用户了解和必要的配置:

  • 百炼平台部署的模型/Agent被互联网访问:百炼平台后台隐藏部署了公网网关,用户可以直接使用公网域名发起API调用。具体参考:获取与配置 API Key。如果想以加密方式传输推理请求信息可以参考:以加密的方式接入模型推理功能

  • 百炼平台部署的Agent访问互联网:百炼平台后台隐藏部署了访问互联网的能力。具体参考:联网搜索

  • 百炼平台部署的模型/Agent被用户VPC私网访问:用户VPC可以通过私网连接PrivateLink产品打通和百炼平台之间的私有网络,然后使用私网域名发起API调用。具体参考:私网访问阿里云百炼模型或应用 API

  • 百炼平台部署的Agent私网访问用户VPC:百炼平台可以通过私网连接PrivateLink产品打通和用户VPC之间的私有网络,然后使用私网域名发起对用户账号的云服务调用。具体参考:安全存储,因为这个逻辑比较复杂,下面画图解释一下原理:

    image.png

    • 在用户VPC内创建私网连接PrivateLink的反向终端节点后,终端节点服务侧可以通过这个反向终端节点访问到VPC内的私网IP地址(比如图中MSE网关内部集成的NLB私网VIP、进而访问到MSE,然后由MSE分发访问请求到ADB、OSS、ES等云产品)

    • 在百炼账号VPC内创建私网连接PrivateLink的终端节点服务、并关联VPC NAT网关后,百炼账号VPC内发起的对用户VPC的访问就会被VPC NAT网关转发到终端节点服务、进而转发到用户VPC的反向终端节点上

    • 百炼平台能访问用户VPC的哪些资源或云服务,由百炼平台控制(即:VPC NAT网关是否配置了这些资源或服务IPSNAT规则)

    • PrivateLink连接为单向设计,仅允许百炼平台的业务空间访问用户VPC、用户VPC无法通过此连接访问百炼平台

PAI-EAS平台Paas化部署模型的网络

模型在线服务 PAI-EAS(Elastic Algorithm Service)是模型在线服务平台,支持用户将模型一键部署为在线推理服务或AI-Web应用。PAI-EAS 适用于实时推理、近实时异步推理等多种AI推理场景,具备自动扩缩容和完整运维监控体系等能力。

用户使用PAI-EAS平台部署模型或Agent时,实际上是部署在PAI平台的VPC中,这个VPC被托管在PAI后台账号中,用户不可见、所以不需要规划和设计。

但是,PAI-EAS平台VPC和外界通信网络,需要用户了解并进行必要的配置:

image.png

  • PAI-EAS平台部署的模型/Agent被互联网访问:如上图中红色虚线箭头所示,有3种方式被互联网(公网访问):

    • 共享网关方式:在模型部署阶段,默认会创建共享网关(托管在PAI-EAS平台VPC中),共享网关上提供了公网域名供互联网用户访问。具体参见:通过网关进行公网或内网调用(默认)

    • 全托管专属网关方式:用户可以自行创建全托管网关(托管在PAI-EAS平台VPC中)、在网关上开启被公网访问开关、添加公网IP白名单后关联到EAS实例。具体参见:1.3 配置自定义域名

    • 应用型专属网关方式【推荐】:用户可以自行创建全托管网关(生成在用户VPC中、被EAS管理)、在网关上开启被公网访问配置后关联到EAS实例。具体参见:1.3 配置自定义域名

  • PAI-EAS平台部署的Agent访问互联网:如上图绿色虚线箭头所示,PAI-EAS实例需要先关联到用户VPC(在用户VPC内插入ENI网卡)、用VPC内创建公网NAT网关并配置SNAT,借助用户VPC出公网。具体参见:网络配置

  • PAI-EAS平台部署的模型/Agent被用户VPC私网访问:如上图蓝色虚线箭头所示,有3种方式被用户VPC私网访问:

  • PAI-EAS平台部署的Agent私网访问用户VPC:如上图橙色虚线箭头所示,PAI-EAS实例需要先关联到用户VPC(在用户VPC内插入ENI网卡),PAI-EAS实例可以通过这个ENI网卡直接访问此用户VPC,具体参见:通过网关进行公网或内网调用。如果要访问用户的其他VPC,可以将其他VPC通过CEN与此VPC连通

Function AI平台Paas化部署模型的网络

后续补充。

容器ACK平台Iaas化部署模型的网络

当用户推理服务有极强的私有化部署诉求时,可以使用ACK专属集群部署推理模型。ACK集群部署于用户VPC之中,所以需要规划和设计此ACK集群的VPC网络。下面简述一下设计原则,关于更细节的ACK网络说明可以参考:容器网络互联负载均衡服务发现

image.png

确定地理位置

  • 根据业务的服务对象所在位置选择地域(Region)。根据云资源储备情况、可用区时延情况选择可用区AZ

确定集群规模

  • 根据业务所需算力大小确定集群规模、根据业务峰谷弹性确定POD数量

  • 根据前一页确定CNI使用Terway还是Flannel

网段设计

  • VPC自身网段:根据POD数量评估地址个数、确定网段

  • VPC交换机的网段(节点所在的子网):

    • 根据Node数量评估地址个数

    • 建议选择2个及机上可用区(高可靠)

  • Kubernetes Pod的网段:

    • 根据Pod数量评估地址个数

    • Pod交换机需和节点交换机在同一可用区

    • Pod网段使用VPC网段之内的地址(可与节点交换机网段重合)

    • Pod网段不能与Service网段重叠

  • Kubernetes Service的网段(ClusterIP所在子网):

    • 集群内使用

    • 不能与NodePod的网段重叠

  • 集群南北流量入口:

    • ALBIngress时,给ALB单独划分交换机和子网(2个及以上可用区)

    路由表设计

  • 系统路由表(默认):1)创建VPC后,系统会默认创建一张系统路由表,此表有到VPC内所有交换机的路由;2)当有出公网诉求并且配置IPv4网关时,在此表中添加前缀为0.0.0.0/0路由下一跳指向IPv4网关;3)此表被Public子网(公网SLB交换机、公网NAT交换机)关联;4)当Node子网内Pod绑定EIP想直出公网时,也需要关联此表

  • 子网路由表1(出公网):1)当有出公网诉求并且配置IPv4网关时,如果Pod想要通过NAT网关出公网,则创建此表并关联;2)在此表中添加前缀为0.0.0.0/0路由下一跳指向NAT网关

  • 子网路由表2(私网):1)当某些NodePod只需要内网通信、控制阻断公网能力时,配置IPv4网关;2)创建此表并Node交换机关联;3)此表中只有到Node子网的路由和响应Pod子网的路由

公网网关设计【可选&推荐】

  • 当要控制服务器配置公网IP或绑定EIP、公网SLB直出公网时,开启IPv4公网网关。公网网关开启后,所有交换机关联的路由表必须有到公网网关的路由才能出公网

安全防护设计【可选】

  • 网络ACL(NACL)可以控制交换机(子网)粒度流量阻断,网络ACL是无状态的

  • 安全组可以控制Node、Terway Pod粒度的流量阻断,安全组是有状态的

网络监控和日志记录【可选】

  • 配置NIS进行日常诊断观测,按需使用flowlog和流量镜像,并配置对应云监控告警

推理服务分发入口设计:

  • 简单场景可以使用IngressACK集群的推理服务入口

  • 建议使用容器推理网关替代Ingress做服务分发网关,参见:生成式AI服务增强

容器ACS平台Iaas化部署模型的网络

当用户推理服务有极强的私有化部署诉求时,可以使用ACS部署推理模型。ACS集群部署于用户VPC之中,所以需要规划和设计此ACS集群的VPC网络。网络的规划和设计原则可以参考前面的ACK章节(只是不需要考虑Node相关的部分),关于更细节的ACS网络说明可以参考:网络-容器计算服务(ACS)

服务分发层的网络规划与设计

服务分发层部署各个模型自己的服务分发网关,将推理请求的服务转发到对应模型的端口上,同时可以实现限速、计量等功能。

image.png

如上图所示,各个模型的服务分发网关:

  • 百炼:公网网关可以接入互联网的推理服务请求,此网关隐藏在百炼平台内、用户不可见;百炼私网接入可以直接使用私网域名调用API,但需要使用PrivateLink打通百炼和用户VPC之间的私网通道

  • PAI-EAS:共享网关、全托管专属网关、应用型专属网关都可以提供公网和私网推理服务请求接入。其中应用型专属网关生成在用户VPC内、用户VPC可以直接进行私网调用;共享网关、全托管专属网关托管在PAI平台内、需要将PAI-EAS实例关联到用户VPC后,用户VPC才可以进行私网调用

  • ACKACS:简单推理场景可以使用常规的Ingress做推理服务请求接入,复杂推理场景建议使用推理网关做推理服务请求接入

以上服务分发网关的网络规划和设计在前面模型网络章节已有介绍,此处略去。

模型分发层的网络规划与设计

当有模型Fallback场景、API Key安全管理、成本控制等诉求时,通常在模型推理层部署不同类型的模型,此时需要规划模型分发层部署模型分发网关,它将不同的模型调用接口统一集成、根据调用的模型名称将推理请求分发到不同的后端模型上。

image.png

模型分发网关作为企业AI应用与模型服务、工具及其他Agent之间的核心连接组件,通过提供协议转换、安全防护、流量治理和统一观测等能力,协助企业构建和管理 AI 原生应用。模型分发网关可以使用阿里云ALB智能版或AI网关产品担任,它们都部署在用户VPC内,只需要简单的规划VPC及其交换机后即可部署:

服务接入层的网络规划与设计

服务接入层,根据不同的终端访问规划和设计合适的网络产品来保证访问流畅和安全。

image.png